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出版说明 



由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是: 《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的 感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 出版社 
合作，陆续推出新的品种。我们希望本丛书单行本的出版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



往事如烟，光阴如梭。转眼间，出国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练,基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 :如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内 （ 十 年前) 的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调査数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 

校社会研究院 (Institute for Social Research ) 定量社会研究方 

法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 

部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 

Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课(事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课)。我 
在讲授这两门课的时候,根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 


方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有少 
量重复，但各有侧重。“社会科学里的统计学 ” (Statistics for 
Social Science ) 从介绍最基本的社会研究方法论和统计学原 
理开始，到多元线性回归模型结束，内容涵盖了描述性统计 
的基本方法、统计推论的原理、假设检验、列联表分析、方差 
和协方差分析、简单线性回归模型、多元线性回归模型，以及 
线性回归模型的假设和模型诊断。“社会科学中的定量分 
析”则介绍在经典线性回归模型的假设不成立的情况下的一 
些模型和方法，将重点放在因变量为定类数据的分析模型 
上，包括两分类的 logistic 回归模型、多分类 logistic 回归模 
型、定序 logistic 回归模型、条件 logistic 回归模型、多维列联 

表的对数线性和对数乘积模型、有关删节数据的模型、纵贯 
数据的分析模型，包括追踪研究和事件史的分析方法。这些 
模型在社会科学研究中有着更加广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集出版，并帮助我将原来的英文课 
程讲稿译成了中文。但是，由于种种原因，这两本书拖了四 
年多还没有完成。世界著名的出版社 SAGE 的“定量社会科 
学研究”丛书闻名遐迩，每本书都写得通俗易懂。中山大学 
马骏教授向格致出版社何元龙社长推荐了这套书，当格致出 
版社向我提出从这套丛书中精选一批翻译，以飨中文读者 
时，我非常支持这个想法，因为这从某种程度上弥补了我的 
教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
语言的精准把握能力，还要有对实质内容有较深的理解能 
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力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练，也有来自美国等地对定量研究感兴趣的博士研究生。 
他们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究 
员李 俊秀; 香港大学教育学院博士研究生洪 岩璧; 北京大学 
社会学系博士研究生李丁、赵亮员 ； 中国人民大学人口学系 
讲师巫 锡炜; 中国台湾“中央”研究院社会学所助理研究员林 
宗弘;南京师范大学心理学系副教授陈陈;美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜念涛;美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单的 
介绍。尽管每本书因本身内容和译者的行文风格有所差异， 
校对也未免挂一漏万，术语的标准译法方面还有很大的改进 
空间，但所有的参与者都做了最大的努力，在繁忙的学习和 
研究之余，在不到一年的时间内，完成了三十五本书、超过百 
万字的翻译任务。李骏、叶华、张卓妮、贺光烨 、宋曦 、於嘉、 
郑冰岛和林宗弘除了承担自己的翻译任务之外,还在初稿校 
对方面付出了大量的劳动。香港科技大学霍英东南沙研究 
院的工作人员曾东林，协助我通读了全稿，在此我也致以诚 
挚的谢意。有些作者，如香港科技大学黄善国教授、美国约 


翰 • 霍普金斯大学郝令昕教授，也参与了审校工作。 

我们希望本丛书的出版，能为建设国内社会科学定量研 
究的扎实学风作出一点贡献。 


吴晓刚 

于香港九龙清水湾 



曾经有一位社会学的博士研究生跟我说，他要去统计学 
系上一门基础课程,我问他为什么，他回答:“每次在我想更 
深入地学习髙级定量方法时，总感觉有一堵无形的墙。”相对 
于社会科学院系，统计学系开设的课程更强调数学的基础 
性，因此，统计学系的学生更容易翻越这堵墙。即便“社会科 
学的数理基础”这套丛书考虑到了所面对的读者并没有接受 
足够的数学或统计学训练，然而，近期的许多话题，诸如稳健 
回归、潜在增长曲线模型等，均需要用到较多更深层次的数 
学知识，从而使许多读者望而生畏。 

《社会统计的数学基础》就是为这些想进一步学习定量 
方法却时常感到被那堵无形的墙所阻碍的读者而编写的。 
这本小册子涵盖了许多数学和统计学中容易被人忽视却又 
至关重要的话题(如矩阵、线性代数、积分、概率理论及统计 
分布），这些话题经常在统计书籍和论文中出现，许多读者或 
许以前还接触过，但是对于大多数从事社会科学研究的读者 
而言，可能还比较陌生。 

当得知福克斯的这个项目时，我异常兴奋并积极鼓励他 
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完成这本书。事实上，许多评论家包括作者本人都感叹，如 
果类似这样的书可以早出版几年，比如，在他们学习统计的 
时候，或者在他们为定量方法课程准备授课讲义的时候，那 
该有多好。 

对于这本书，评论家一致 认为: “它会是协助研究生及社 
会统计工作者进行研究的得力助手，也会成为大受欢迎的书 
籍。同时，这本书更将是对定量方法研究的一个重要补充。” 

赓福挺 
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矩阵为大多数统计提供了一种自然 诠释; 线性代数是有 
关线性统计模型的代数计算;几何向量是一种非常强大的概 
念性工具，它在理解线性代数和标识线性模型等方面很有 
用。本章的目的是介绍有关矩阵、线性代数和几何向量的基 
本概念。这些相关话题在社会统计中应用广泛，且其编排形 
式相对于严格的数学表述来讲是非正式的。一方面，许多计 
算结果没有提供详尽的根据，而另一方面，这些根据均是撾 
纲挈领的。对更深人的线性代数感兴趣的读者可以参看相 
关主题的教科书，以获得详细的解释(推荐阅读请参见本章 



基本定义 

矩阵是一组数字或数字变量的长方形阵列，例如， 


[ 1 . 1 ] 


[ 1 . 2 ] 


像这样的 m 行 n 列矩阵可以称为 m 乘《阶矩阵，记做 （m X 
n )。 为方便起见，我有时候在矩阵的下方表示阶，如方程 1. 1 
和方程 1.2 所表示。矩阵的每一个元或者元素可以用它的 
行列下标表示，如^表示矩阵 A 的第 i 行第 j 列元素。若矩 
阵为单一(实)数，则被称为“纯量”。有时为了简洁方便，我把 
矩阵中的典型元素放在一个括号里来表示矩阵，如 A = 

(mXn) 

等价于方程1.2。 



其更一般地表 示为: 
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一 个只有一列元素的矩阵为列向量，如 


a = 

CmXl) 


CLi 

ciz 


暑 


与之类似， 一 个只有一行元素的矩阵为行向量， 

b f = [61 ， b” …， b n — 

% 

为了便于区分，我在行向量的元素间加上了逗号。 

矩阵 A 的转置表示为 A \ 它是将 A 的第 i 行转变为 A ' 
的第；列所构成，因此以方程 1. 1和方程 1. 2为基准，则 有： 



^ 1 

4 

7 

0" 

X ’ = 

-2 

— 5 
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0 

(3X4) 
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<2u 

<^21 
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A f = 

(nXm) 

^12 

“22 



* 

鲁 

* 

* 

• 

■ 


* 

• 

* 


^ln 

^Zn 

• • • 



请注意 ， （AY = A 。 通常，我所说的向量是指列向量(如上面 
的 a )， 除非明确指出它是被转置的(如 I /)。 

N 阶矩阵，正如它的名字一样，拥有 n 行 n 列。 元素七 
(例如 ，如， a 22 ，…，、)组成了方阵 A 的主对角线。对角线 
上所有元素的和叫做矩阵的“ 迹”： 

n 

trace ( A ) = 
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如方阵 



其对角线元素为一5、2和 一4, 因此迹为 办 =—5 + 2 — 4 

1=1 

=_7。 

如果 A = A '， 则称该方阵是对称的，即对于所有的£和 
=~。 根据定义可知，（上面的)方阵 B 是不对称的，而 

方阵 



是对称的。统计应用中的许多矩阵都是对称的，如相关性矩 
阵、协方差矩阵、平方和矩阵或者交叉乘积矩阵。 

上三角矩阵是指主对角线下方的元素都为0的 矩阵： 



下三角矩阵指主对角线上方的元素都为0的 矩阵: 
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对角矩阵是指除主对角线外，其他元素都为0的 矩阵: 


% 0 

0 d z 

D = 

(«Xn) : : 

■ * 

0 0 


… 0 

… 0 



… d n — 


为简单起见，我将对角矩阵 D 表示为 DzdiagWi ，必，…， 
dj 0 纯量矩阵是所有元素都相等的对角矩阵： S = diag( 5l , 
和，…，〜)。一种重要的纯量矩阵是单位矩阵，它的主对角线 
上的元素全是1: 

_1 0 … 0 — 

0 1 … 0 

I = 

c«x») : : : 

_ _ ■ * 

-0 0 …1_ 

我一般将1写成 L 。 

(«Xw) 

另外两种重要的纯量矩阵是零矩阵(所以元素都为 0) 和 

一 

向量 1( 所有元素都为1)。我用1„表示 n 元向量，如1 4 = 
[1，1，1， 1]' 。尽管单位矩阵、零矩阵和向量1都属于矩阵， 
但是为方便起见，我们通常指定它们为奇异矩阵，如单位矩 
阵就是一个奇异矩阵。 

分块矩阵是指将一个矩阵的元素分归于若干子矩阵，如 




^12 

^13 



A — 

(4X3) 

戊 21 

“22 

^23 


An 

(3X2) 

A !2 

(3X1) 

^31 

^32 

<^33 


A21 

(1X2) 

A22 

(1X1) 


a 4 i 

^42 

“43 一 



其中，子矩阵 A „ 为 
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a】i 

a l2 

An — 

^21 

1 

^22 1 


J^31 

^32 - 


同样， A 12 、 A 21 、 A 22 具有类似的定义。当没有歧义时，我会将 
子矩阵间的线 省略。 如果一个矩阵仅被垂直分割，我会用逗 
号来区分子矩阵，例如， 


C = 

(j?iXn 十 fi) 


Q , Q 

(j«Xh) (mXp)^ 


简单矩阵运算法则 


如果两个矩阵具有相同的阶且它们相应的元素都相等， 
那么，我们说这两个矩阵相等。 

当且仅当两个矩阵同阶时，它们才可以相加，通过将两 
个矩阵中的对应元素相加，即可得到矩阵的和。因此，当 A 
和 B 均为 （ mX «) 阶时，那么 ， C = A + B , 其阶仍为 （ mXn )， 

且~ 〜+ \。同样，如果 D = A — B , 那么， D 的阶也为 

(w X n ) ， 且禹=% — \ 。 如果要求矩阵 A 的负矩阵 E ， 即 
E = — A , 它的阶同 A 相等，则々 =— % 。 例如： 


和 


我们得到: 





0 


2 - 

— 4」 
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C = A + B = 

(2X3) 




D = A - B - 

(2X3) 


「6 




E =-B 


(2X3) 


5 _ 1 _ 


-3 


0 


4」 


由于这些计算均是针对元素的运算，所以矩阵相加、相 
减及求其负矩阵的依据都与纯量运算法则相同。特 别是： 

A + B = B + A (矩阵相加的交换律） 

A+(B + C ) = (A + B)+C (矩阵相加的结合律） 

A — B = A +(- B ) =— ( B - A ) 

A-A = 0 
A 一 0 = A 


-(- A ) 




(A + B )' = A ' + B ’ 

个 （m X n ) 阶的矩阵 A 与一个纯量 c 的乘积为 B 


cA ， 其中， ~ = c ^。 续前例，我们得到 


F 

(2X3) 


3 XB = BX 3 


15 3 


61 


9 0 -12」 


纯量与矩阵的乘积遵循如下 法则： 

cA = Ac (交换律） 

A (6 + c ) = A 6 +Ac (纯量分配律) 
KA + B )= cA + cB (矩阵分配律) 

0 A = 0 
1 A = A 
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( - 1)A = - A 

其中，6、 C 、 0、1和一 1都是纯量， A 、 B 和0为同阶矩阵。 

两个《元向量的内积(或者点乘)为一个纯量，它是通过 
相加相对应向量元的乘积得来的。 


n 


a' • b = 

i=l 


例如， 


[2， 0， 1， 3]. 


-in 
6 


0 




2(- l )+0(6)+ l (0)+3(9) 


= 25 

当矩阵 A 的列数与矩阵 B 的行数相等时，我们说矩阵 A 
和矩阵 B 是乘法相适的。因此，当 A 为 （ mXn ) 阶， B 为 （rzX 

夕）阶时，矩阵 A 和 B 乘法相适(如下例)。 

~1 0 0 — 

0 10 
_0 0 L 

(3X3) 

但是以下矩阵却不乘法 相适： 

10 0 
0 10 

-0 0 1 . 

(3X3) 

让0 = ^作为矩阵羔矩阵8的乘积 ； 让或代表 A 第 f 
行， h 代表 B 第 i 列，那么，我们知道， C 就是一个 （ mX />) 的 

n 

矩阵，且 G = flj • bj = 知〜。 



n 2 3i 

•4 5 6」 

(2X3) 
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请看下面几个 例子: 



(2X3) 


1 0 (T 
0 1 0 



(3X3) 


_ - l ( l )+2(0)+3(0), 1(0)+2(1)+3(0), 1(0)+2(0)+3(1)- 
-4(1)+5(0)+6(0), 4(0)+5<1)+6(0), 4(0)+5(0)+6(1)- 

(2X3) 


-12 3 - 
-4 5 6 - 



， 


译， A ，供一 

0X4) 


工 1 


工2 


= C/l +P1X1 +PzX 2 + 译 X 3 ] 

(1X1) 



(4X1) 



[ 1 . 3 ] 



在第一个例子中，箭头表示左边矩阵里的元素如何与右边矩 
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阵里的元素相乘。 

矩阵乘法遵循结合律， A ( BC ) = ( AB ) C , 其分配律同加 
法相似： 

( A + B)C = AC+BC 
A ( B + C )= AB+AC 

但是它又不是广义上的可交换：如果 A 为 （ mXn ) 阶， B 为 
( nXp ) 阶，矩阵 AB 如之前所定义的是乘法相适的，但是 BA 
要乘法相适必须满足 m = p 。 即便满足了这个条件， AB 和 
BA 的阶也可能不同。而且即使 A 和 B 同阶且都为（2 X 2)， 
即乘积 AB 和 BA 的阶也相同，但是所得矩阵仍然不同，这点 
可参见方程1.3。除非 A 与 B 如方程 1.4 所示 ， AB = BA ， 我 
们可以说， A 与 B 的乘积满足交换律，否则轻易下结论说 AB 
= BA 是错误的。然而，纯量可以在矩阵乘积中随意摆放而 
不影响计算 结果 ： cAB = AcB = ABc 。 

单位矩阵和零矩阵在矩阵的乘法中扮演着非常重要的 

角色，因为它与含有数字0和1的纯量运算相似。 

A A = A 

(inXiO (i«Xn) 

A 0 = 0 

(mXff) CflX^) (mXp) 

0 A = 0 

(gXm) (mX«) i<p<n) 

矩阵乘积还有一个性质在纯量运算中没有，即 （ AB )' = 
B A , 两矩阵之积的转置是它们顺序相反的转置矩阵之积。 
这可推 广为： 

( AB "_ F )' = F ^. B ’ A ' 


一个矩阵的平方是它和它本身的乘积，即 A 2 = AA ， 
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A 3 =^ = ^ 2 =1人，以此类推。如果 tf=A ，那么我们 
就可以说 B 是 A 的平方根，或者我们可以将 B 写成 A 1/2 。 与 
纯量计算不同，一个矩阵的平方根不是唯一的，当然，纯量的 
平方根也不是唯一的，但区别仅在于符号。如果 A 2 = A ，那 
么，我们称 A 为“等幂元”。在纯量运算中，依照惯例， A° =1 
(其中，I与 A 同阶)。矩阵 A 的逆矩阵记为 A— 1 ， 其矩阵元素 
并不等于{1/%}。 

为了便于讲解矩阵的加法、减法及乘法，我们常常把分 
块矩阵的子矩阵看做矩阵里的元素，只要这些元素分割恰 
当。例如， 


并且， 




^12 

a n 

£ll4 

^15 

A = 

a 2 \ 

^22 

^23 

^24 

“25 


“31 

<^32 

a 33 

^34 

^35 




b\i 

bu 

^15 

B = 

bz \ 

bzz 

623 

b u 

^25 



632 

& 33 

bu 

办 35 



r D 

Un 


A12 " 

A22 ■ 


»! 2 - 
®22 _ 


那么， 


A + B = 


同样，如果 


An + Bn 

A iz + Bi2 

A21 + B21 

A22 + ®22 


A = 

Cm 十 11 乂 P 十 9) 


An 

Al 2 

(mXp) 

irrC<q) 

A2I 

A22 

(?C<p) 

(nXq) 
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那么， 


AB = 

(mHiXHs) 



「Bn 

B, 2 1 

B = 

Cp+qXris) 

(pXr) 

(pXs) 

Bzi 

K^Xr) 

®22 


AnBii + A12B21 

AnBi2 + A 12 B22 

A21B11 + A22B21 

A21B12 + A22B22 


根据矩阵的定义，我们可以把纯量方程组用矩阵方程来 
表示。考虑下面含有两个未知变量(^，:*： 2 )的线性方 程组： 


2xi + 5x z = 4 


Xi + 3x 2 ~ 5 


这些方程之所以为线性，是因为其相加之和为常数(如第一 
个方程的右边），而且方程左边均是常数和一次变量的乘积 
(如第一个方程左边的第一项2^ ) 。 

2xj +5x 2 = 4 和々 +3 j ：2 = 5 这两个方程分别代表一个 
二维坐标空间。我们可以把以上方程组用矩阵方程来表示， 
得到： 









A x = b 

(2X2) (2X1) (2X1) 

其中， 


r2 5i 

A = 

Ll 3 」 
x 

•工 2 - 
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T41 

b = 

L5-I 

有关线性方程组的组成和解法会在后文中给予详解。 


逆矩阵 


在纯量计算中，除法是解简单方程的重要工具，例如， 


6x — 12 



或者， 

X 6x == 士 X 12 
0 0 

x ~ 2 

其中， i = 6 _ 1 ， 即纯量 6 的倒数。 

在矩阵计算中，没有直接的除法，但是大多数方形矩阵 
都有逆矩阵。 一 个方形矩阵的逆矩阵 m 是一个同阶的方形 
矩阵，记做 AT 1 。 它有如下 性质： AAT 1 =A 4 A = I。 如果方形 
矩阵可逆，则称其为“非奇异矩阵”（当数学家第一次遇到非 
零且不可逆的矩阵时，他们发现这种矩阵存在的数量显著， 
因此称这种性质为“奇异性”)。如果一个矩阵存在逆矩阵， 
那么它就具有唯一性。对于一个方形矩阵 A，AB = I，那么 
必然有 BA = I，因此 B = AT 1 。请看一个非奇异 矩阵： 
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它的逆矩 阵为： 

- 3 -5- 
- _ 1 2 - 

我们可以 证明： 


-2 5" 


■3 -5, 


，1 0- 

-1 3- 


1 2- 


■0 1- 


-3 — 5 ， 


■2 

5- 


_1 0- 

_― 1 2 - 


^1 

3 - 


-0 1- 


在纯量代数中，只有0没有倒数。我们接下来举一个关 
于非零奇异矩阵的列子，假设 B 为矩阵 A 的逆矩阵， 


rl (T 

A = 

U) 0 」 


但是， 



这与假设相悖，因此，我们说 A 没有逆矩阵。 

寻找非奇异方形矩阵的逆矩阵有很多方法，在这里，我 


来简单介绍一种方法 


高斯消去法。尽管在计算机执行 


时许多方法都可以提供精确的结果，但是消去法使用起来较 
简单，且在应用范围上也超出了矩阵求逆(这一点我们在后 
面的内容中会有所提及)。现在我们以如下矩阵 为例： 


'2 -2 0 " 

1-1 1 [1.5] 
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首先，把该矩阵与单位矩阵合并，即构造一个分块或者增广 
矩阵： 


"2 

-2 

0 

1 

0 

0 

1 

-1 

1 

0 

1 

0 

4 

4 

— 4 

0 

0 

1 _ 


然后，我们试图通过以下操作把原来的矩阵变为单位矩阵: 


用一个非零纯量与矩阵的任意一行相乘。 
把矩阵中某一行的倍数加到另一行上。 
Ew: 交换两行。 


Ej . 仏和£^被称为“初等行变换”。 

从第一行开始，我们对每一行轮流进行初等行变换，同 
时保证对角线上的元素不能为0,如果遇到对角线元素为0 
的情况，我们可以把对应的那一行移到下一行，然后用行元 
素除以这一行的对角线元素(该元素也称为“主元”)。最后， 
用这一行的倍数加上另外的行，以消除其他行对角线元素以 
外的非零元素。具体过程如下 所示： 

1. 增广矩阵第一行除以2， 



L4 



0 0 

1 0 

0 1 - 


2. 第二行减去第一行， 
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3. 用第三行减去第一行乘以4, 



4. 由于第二行对角线元素为0,所以将第二行、第三行 
交换， 



6. 第一行加第二行， 
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7. 因为第一行主元已经为1，所以用第三行乘以 I 再加 
第 一 行， 



8. 第三行乘以 j 再加第二行， 



当原先的矩阵变为单位矩阵时，增广矩阵的最后三列则 
包含原先矩阵之逆阵，我们可以通过以下步骤来 证明： 
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解释消去法可行性的方法很 简单: 每个初等行变换都可 
以用一个矩阵乘法来表示。因此，当我们要交换第二行和第 
三行时，我们只需在原矩阵的左边乘以以下 矩阵： 

"1 0 0 " 

= 0 0 1 
_0 1 0一 

步骤中包含一系列个对增广矩阵 [ A ， IJ 的初等行 

(nXn) 

变换，我们可以 写成： 

E^.EjjEiEA ， 1„]= [1« ， B] 

其中， E, 表示第£个变换。定义 E = …佐虱，即 EA= 


(暗示 TE = AT 1 )， EI „ = B 。 因此 ， B = E = A — 1 。 如果 A 为 

奇异矩阵，那么，它就无法通过初等行变换转为单位矩阵 I 。 

在该过程中，非零主元不存在。 

矩阵逆阵遵循以下法则： 


r 1 = 

=I 

( at 】 r 1 

=A 

( A ' r 1 = 

( A - 1 / 

( AB ) _1 = 

n 1 

( cA ) -1 = 

c -' A - 1 


其中， A 和 B 为 n 阶非奇异矩阵， c 为非零纯量。如果 D = 
diagC ^， …，式），且所有忒乒0,那么 D 是一个非奇异 

矩阵， IT 1 = 出吨(+，士，…，+ ) 。最后 ，一 个非奇异对称 

™ 1 ™ 2 ^ FI 

矩阵的逆矩阵也是对称的。 
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行列式 

对应于每个方形矩阵 A ， 都有一个称为“矩阵行列式”的 
数，这个数记做 det A 。® 对于一个 （2 X 2) 的矩阵，其行列式 
可表示为 det A = ^11^22 _ ^12^21 o 对于一个 （3 X 3) 的矩阵，其 
行列式可表 示为： 

det A = flilfl 22 fl 33 — ^11^23^32 ^12^23^31 — 2^21^33 

+ ^ 13 ^ 21^32 _ ^13 ^22 a 31 


尽管对于 《 阶方形矩阵的行列式有一个广义的定义，但是我 
认为，用以下性质(或定理)来描述行列式更 简单： 

D 1: 如果用纯量常数乘以矩阵 A 的某一行，那么矩 
阵的新行列式则为原来行列式与该常数的乘积。 

D 2 :如果把矩阵 A 某一行的若干倍加到另一行，行 
列式值不变。 

D 3: 交换矩阵 A 的任意两行会改变行列式的符号。 
D 4： det I = 1 

定理 Dl 、 D 2 和 D 3 指出了三种初等行变换对行列式的影响。 
由于上述高斯消去法可将一个方形矩阵转变为单位矩阵，因 
此，这些性质加上定理 D 4 已经可以充分确定行列式的值。 
行列式可以简单地通过主元乘积得到,在消去过程中，如果 
使用了一次偶数行交换，则要在乘积前面加负号。如方程 
1.5,其行列式等于 一 （2)(8)(1) =-16, 因为在第四步有一 
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个行交换(第二行和第三行)，通过步骤1、步骤5及步骤7,我 
们知道矩阵主元分别为2、8和1。如果矩阵为奇异矩阵，那 
么则有一个或者一个以上的主元为0,因此行列式为0。相 
反，对于一个非奇异矩阵，其主元不可能为0。 

行列式有时会在统计应用中直接出现，例如，出现在多 
元正态分布的公式中。 


克罗内克积 


假设 A 是一个 mX / z 阶矩阵， B 为一个阶矩阵。那 
么 A 和 B 的克罗内克积记做 A ® B , 定 义为： 


(n^Xnq) 


^11 B ^ 12 ® 

U2\ B 0,22 B 


攀 _ ■ 


a ln V] 


« 

■ 

* 


暑 

* 

* 


■ 

■ 

■ 


B 0„2 B 




由于克罗内克积可以表示分块矩阵，因此在统计中非常 


有用。例如， 


1 

0 0" 


r 2 

^1 

戊 12 

0 

1 0 



9 

一0 

0 L 


- 0\2 

L 

内」 


r 2 
^1 

<Tl2 

0 

0 

0 

0 

ffl2 

2 

0 

0 

0 

0 

0 

0 

2 

戊 I 

^12 

0 

0 

0 

0 

On 

2 

0 

0 

0 

0 

0 

0 

2 

戊 1 

^12 

_0 

0 

0 

0 

(?12 

2 

<h 




克罗内克积的许多性质与普通矩阵相似，尤其是， 
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A ®( B + C ) = A ( g)B + A®C 
( B + C )® A = B ( g)A + C ® A 
( A ® B )( g)D = A ® ( B ® D ) 
c ( A ® B ) = ( cA )( X)B = A ® ( cB ) 

其中, B 和 C 为同阶矩阵， c 为纯量。如同矩阵乘法，克罗内 
克积不具交换性，从广义上说， A ( x ) B ^ B ( x ) A 0 另外，对于矩 
阵 A 、 B 、 C 和 D ， 

(mXn) (pXq) inXr) (qXs) 

( A ( g ) B )( C ( g ) D ) = AC®BD 


如果 A B 为非奇异矩阵，那么， 

(itXn){m>On) 

( A ® B ) _1 = A -1 ® B -1 

因为， 


( AfgJBKA ' 1 ( xJB - 1 ) 




( AA - 1 ) ® ( BB - 1 ) 


=1 


(ffnXwi) 


最后，对于任意矩阵 A 和 B ， 


( A ® B )' = A '® B ’ 


对于分别具有 w 和 „ 阶的方形矩阵 A 和 B , 


trace(A ® B ) = trace ( A ) X trace ( B ) 
det(A ® B ) = ( detA) m ( detB )" 
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第2节 | 基础几何向置 


在代数中，向量为只含有一列(或者一行)的矩阵。其几 
何解释为:向量 * = [4 ， x 2 , …， x n ], 表示 n 维笛卡尔坐标 
空间中的零点到（由向量元决定的)终点的有向线段。有关 
二维或三维空间的向量例子，请参见图 1. 1。 



注:每个向量都是一个以0为起点的有向线段，其终点由向量元决定。 

91.1 几何向置举供 ：( a 丨二 维平面 :（ b ) 三 维空间 


有关向量基本算术的几何说明非常简单，已知长度和方 
向，我们就可以确定一个向量，不论其起点是不是在坐标零 
点。两个向量*1、 x 2 相加，只要使其中一个向量\平移到其 
终点与另一个向量 X 2 的起点重合，此时所得的以&的起点 
为起点、以 X 2 的终点为终点的向量即由加法所得的向量，同 
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时，该平移向量的长度与方向(与所有坐标轴所成的角度)保 
持不变。图 1.2 在二维坐标系里描述了向量加法的操作。它 
等同于以\、 x 2 为邻边作平行四边形，以坐标0点为起点的 
对角线即向量4、 x 2 的和。 



注: 把其中一个向量平移到其终点与另一个向量的起点相重合构成一个平 
行四边形,以坐标 0 点为起点的对角线即两向量的和。 

图 1.2 两个向置相加 

在图 1. 3中，向量 X 】 _ x 2 的差表示为 
以^的终点为起点、&的终点为终点的 
向量，那么，如果是求向 量&一 X 1 的差，则 
该向量的方向为从 X ,到 x 2 。 

向量 X 的长度用 II X II 来表示，等于 
它坐标平方和的算数平 方根： 

与向 •為 - X , II X II = 

V t = 1 

该方程在二维平面中遵循勾股定理，如图 1.4( a ) 所示。该结 
果还可以延伸至三维空间坐标中，如图 1.4( b ) 所示。向量 Xl 
和向量 *2 的距离为两个向量终点的距离，表示为 II Xj — X 2 || 
=|| x 2 — Xj II (如图 1. 3)。 



X 2 -X! 


图 1.3 向 Jt Xl 


注:其中， ( a ) 与 ( b ) 分别为向量长度在二维和三维空间的表示。 

1.4 向量长 度是其坐标平方和的平方根(表示为 || x || = 



纯量 a 和向量 x 的乘积向量 ax 长度为丨 a| X II X II ，证 


明过程 如下: 


| ax 


2 (叫) 


= \f^ Xj 2 
=I a I X || x I 

如果纯量 a 为正，那么向量 ax 与向量 x 同向;如果 a 为负，那 
么向量 m 与向量 x 共线但是方向相反。 向量一 x 可以看做 
纯量 (一1) 和向量 x 的乘积，因此，向量 一 X 的长度与 x 相同， 
只是方向相反。这些结果我们都可以在图 1. 5中看到。 


,1.5 x = (4, 5,3)’ 
(3,2/ 


C — 3, —2)' 


注:其中，向量 flX 与向量 x 共线。如果 fl >0, 那么向量 ax 与向量 x 同向; 如 
果 a < 0,那么向量 ax 与向量 x 反向 

1.5 向置 ax 在二维坐标平面内的表示 
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第3节 I 向置空间与子空间 


«维向量空间是所有向量 x = ( A ， J ：2， …， A )/ 的无限 
组合，且其坐标 A 可以是任意实数，因此我们可知 ，一 维向量 
空间即一条直线，二维向量空间为一个平面，等等。 

71维向量空间的子空间是由空间中含有々个向量 
x 2 , …， x *} 的向量空间子集 y 生成的，该生成集合 y 的 
线性组合形 式为： 

y = ^ iX ： +a z x 2 H - ha * x * 

向量集 {&， x 2 ，…， &} 分布于整个子空间，我们知道，其实 
每个 Xp x 2 , …， X * 都是一个由 n 个坐标组成的向量，也就 
是， { x M &，…， x *} 是 A 个向量的集合，而不是一个包含々 
个坐标的向量。 

如果该向量集合 {& ， x 2 , …，& } 中的任何一个向量都 
无法表示为其他任意向量的线性组合，那么，我们说该向量 
是几何上线性独立的。 

x> =…+ aj-iXj-i +ajXj + … [1. 6] 

其中 ，一 些常数 A 可为0。同样，我们可以说，如果不存在不 
全为0的常数匕，6 2 ,…， 匕使得 


biXr +6 2 x 2 H - \- b k Xk = 0 


1.7 
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那么，该向量集合线性独立。方程 1. 6和方程 1. 7则被称为 
“线性相关”或者“共线性方程”。当向量集合符合这两个方程 
时，则我们称该集合为“线性相关集合”。注意，由于0 = Ox ， 
因此零向量与任何向量都存在线性相关的关系。 

子空间的维度是由最大的线性独立子集内的向量个数 
决定的。因此，由向量集合{&， x 2 ，…， &} 生成的子空间 
维度不会超过々和这些在向量空间中的关系可在图 1.6 
的三维坐标系中体现出来。图 1.6( a ) 表示由一个非零向量 x 
生成的一维子空间(直线）；图 1. 6( b ) 表示由经 Xl 、 x 2 两个共 
线向量组成的 



注: (a) 由一个非零向量生成的一维子空间(一条直 线）； （b) 由两个共线向量 
生成的一维子空间； （c) 由两个线性独立的向量生成的二维子空间(一个 
平面)； （d) 由三条线性相关但是两两之间线性独立的向量生成的二维子 
空间。其中 ，（c) 和 (d) 中生成的平面可以无限延伸，将平面画在 Xl 和* 2 
之间是表达的需要。 


图 1.6 三维空间的向置集生成的子空间 
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一维子空间;图 1 . 6(c) 表示由两个线性独立的向量^、 x 2 组 
成的二维子空间(平 面）； 最后，图 1. 6 ( d ) 表示由三个线性相 
关的向量灸、 x 2 、 x 3 生成的二维子空间。在最后一个例子 
中，任意一个向量都会落在由其他两个向量组成的平面中。 
一 个线性独立的向量集 {Xi ， x 2 ， …， x *}， 如图 1. 6(a) 

中的 { x } 和图 1. 6( c ) 中的 { x : ， x 2 } ，均可以看做向量集所 
扩张出的子空间的基。空间内的每个向量都能以唯一的方 
式表达成这些基向量的线性 组合： 

y = + c 2 x 2 H - 

常数 q ， c 2 ，…， c A 被称为 “ y 的坐标值”。因为 0 = Oxi + 0 x 2 
+ …+0&，所以零向量可以存在于任何子空间。 

一个二维子空间的向量坐标可以根据向量加法中的平 
行四边形法则找出（如图1.7)。我们还可以通过线性联立方 
程组得到具体坐标值，其中， q , …， q 为未知量。 



图 1.7 通过向置加法的平行四边形法则得到的以 

< *1 » x 2 > 为基的向量 y 的坐标 
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当向量集{ X ,， X 2 ，…， &} 中的向量是线性独立的时候，矩 
阵 X 为列满秩矩阵，此时，方程组有唯一解。有关轶的概念 
和系统线性联立方程组的解法，我们会在之后介绍。 

正交与正交投影 

我们知道，两个向量的内积等于它们对应坐标的乘积 
之和： 

n 

x* y = 

i=l 

如果两个向量 x 、 y 正交(垂直），那么它们的内积为0。有关 
正交的基本几何向量可参见图 1.8 。 尽管向量 x 和 y 均存在 
于一个 n 维空间中（因此有些我们可能无法直接观测到），但 
按照惯例，我一般将其画在一个二维平面坐标里。 [3] 如图 
1.8(a) 所示，当向量 x 和 y 正交时，顶点分别为(0, x ， x + y ) 和 


y *+y 



(a) 


y x+y 



注:⑷当向量 X， y 正交时，它们的内积 x*y 等于 0; ( b ) 当两向量不正交，那么 
它们的内积不等于0。 

图 1.8 正交的基本几何向置 


(0, x ， x — y ) 的两个直角三角形是全等的。因此 ，II x+y || = 
II x — y || 。由于向量的长度为该向量与其本身的内积的平方 
根，于是我 们有： 
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(x + y ) • (x + y ) = (x — y ) • (x — y ) 
x • x +2 x * y+y • y = x • x — 2 x • y + y * y 

4 x • y = 0 
x • y = 0 

相反，当 x 和 y 不正交时，那么 ||x + y || ^ || x — y || ， 则 

x.y 关0。 

向量 y 在向量 X 上的正交投影可看做向量 X 与一个纯量 
的乘积，那么， ( y - $) 与 X 正交。正交投影的几何表示请见 
图 1. 9。通过平行四边形法则(见图 1. 10)， y 的终点是向量 
X 方向上与向量 y 的终点距离最近的点。为了找到正确的纯 
量6,我们有： 

x • ( y — y ) = x • ( y —6 x ) = 0 
因此 ， x • y — bx • x = 0,那么， 6 = (x • y)/(x • x )。 

A 



y 



图 1.9 向量 y 在向量 x 上的 图 1.10 向量，在向置乂上的正交 
正交投彩 今 =bx 投影 夕 = 6x (其终点为与向置 

y 的终点距离最近的点） 

当正交的定义延伸到矩阵中时， 则有: 若矩阵 X 的列向 
量两两正交，即当 X ' X 为对角矩阵时矩阵 X 为正交矩 

(nXk) 

阵。所以，如果矩阵 X 为正交矩阵，其符合 X ' X = I 。 

通过向量 y 在 X 上的正交投影可以得到两向量夹角的余 
弦值进而算出两个向量之间的夹角。由于余弦函数在 w=o 
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上中心对称，因此在任意方向上测量夹角都可以。这里，我 
简单地把所有夹角都视为正值。有关余弦及其他三角函数 


的讨论请见后文。我将夹角类型大概分为两种 :两向 量之间 
的夹角在 0° 和 90° 之间; 两向量夹角在 90° 和 180° 之间。 [5] 对 


于第一种 类型: 


COS TV = 


U 

l = t 

X 

X • 

3 Ly . 

X 


yll 


y 


X 

2 入 

y 



X • y 

X II x II y II 


对于第二种 类型: 


COS U ；=— 



八 

y 


X 

x * y 

• — ■ _K_ 


y 


y 1 


X 

X 

y 


对于以上两种情况，向量 y 在 X 上的正交投影的6的符号反 
映了 COS W 的符号。 




注：（3>0。<«;<90。 ； 0)) 90°< w< 180% 

图 1.11 向置龙与，的夹角 


在一个由向量集合…， X *}扩张出来的子空间 
中，向量 y 的正交投影可表示为向量== 1，2,…，幻的 

线性组合。因此， ( y - y ) 与该向量集里的所有 向量& 都 
正交。 


y = 6^! +62X2 H - 
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如果 A = 2,该正交投影的几何表述可参见图 1. 12。在由该 
向量集扩张出来的子空间里，向量？的终点为在向量 x 方向 
上与向量 y 的终点距离最近的点。 



图 1.12 向量 y 在由向 ^ Xl 、 x 2 扩张出来的子空间(平面)上的正交投彩 y 

我们用一个向量 b 包含所有常数6,，同时把所有向量 x , 
放入一个 inXk) 矩阵 X = [ x M )£ 2 ,…， &] 中，因此，我们有 
y = Xb 。 根据正交投影定义， 得到： 

• (y — y ) = x ； • ( y — Xb ) = 0 0 = 1, k) [1. 8] 

同理， X \ y — Xb ) =0, X'y = X Xb Q 只要 fX 为非奇异矩阵， 

我们就可以找到符合该方程的唯一的 b 。 对于基向量，只要 
{ Xl ， x 2 ，…， &} 线性独立，则 X ' X 为非奇异矩阵， b 有唯一 
解，否则， b 的解不唯一。 

有关正交投影在最小二乘线性回归中的应用非常直接。 
假设图 1. 9和图 1. 11中的向量 x 是一个简单回归里的自变 
量，向量 y 为因变量，对于 X 和 y 我们都用(每个变量与其均 
值的)偏差来表示，则有 X = {足一 X }， y = { Y < — Y } 。那 
么， $=6 x 即 Y 对 X 进行最小二乘线性回归后，通过 Y 值拟 
合得到的平均偏差向量;6为斜率， y 为最小二乘残差向 
量。根据平行四边形法则，我们发现， Y 的总平方和可以分 
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解为回归平方和和残差平方和 ，即： 

llyli 2 = II y II 2 + !ly-y II 2 

或者叫做回归的“方差分析”。那么， X 和 y 之间的相关系数 r 
就是它们平均偏差向量夹角的余弦值。 

同样，在一个多元回归中，我们假设 y 为因变量的平均 
偏差向量， x , 和&为两个自变量的平均偏差向量，那么， Y 对 
K 和&的最小二乘线性回归则如图 1.12 所示。其中， h 和 
6 2 为两个自变量的偏回归系数。由原点、 y 及？组成的直角 
三角形给出了多元回归中的方差分析。 y 与》之间夹角的 
余弦值则为回归得出的尺，即观测的 Y 与回归拟合出的 Y 的 
相关性大小。 
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第4节 | 矩阵的秩及线性联 


立方程组的解法 






矩阵的秩 

(mXn ) 矩阵 A 的行空间是《维向量空间的子空间，该 
子空间是由矩阵 A 的 m 行向量生成的。矩阵 A 的秩即行空 
间维数，换句话说，矩阵 A 的秩是最大线性独立行数值。它 

遵循 rank ( A ) ^ min (7 w , n) 0 

例如，矩阵的行空间 

rl 0 0* 

A = 

Lo 1 0J 

包含的所有向 量为： 

x ’ = a [ l ， 0, 0] + 6[0, 1, 0] 

= [ a , b , 0] 

该子空间维数为2,因此， rank ( A )=2。 

如果一个矩阵为行简化阶梯形矩阵 ( RREF )， 那么，它必 
须符合以下 标准： 
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R 1: 如果矩阵中包含零行，零行必须排在非零行 
后面。 

R 2: 从左到右，每个非零行的首非零元都为1。 

R 3 :若第 m 行的首非零元位置在々列，那么，第 m + 1 
行的首非零元位置则在6 + 1列。 

R 4: 首非零元所在列的其他元均为0。 


方程 1. 9形象地列出了行简化阶梯形矩阵，其中，“ * 
号表示所在元素的任 意值： 


"0 ••• 0 1 * * 0 * * 0 * •*_ * 

0 0 0 0 0 1 # * 0升…* 


非零行 


_ 

t 

* 


* I • * * # _ 摩 


_ 


0…0 0 0…0 0 0…0 1 * … * [ 1 . 9 ] 

0…0 0 0 0 0 0…0 0 0…0 零行 


_ 

■ 


* 




奉 


* 


* 


攀 


t 

■ 



行简化阶梯形矩阵 ( RREF ) 的秩和矩阵中的非零行数目 
相等，首非零元所在列的其他元均为0的性质，保证了任意 
非零行不可能成为其他非零行的线性组合。 

通过一系列初等行变换，我们可以把一个矩阵变为 
RREF 。 例如， 


■—2 0 - 12 - 
4 0 10 

-60 1 2 „ 
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1. 第一行除以一2, 



0 



4 0 1 0 

一 6 0 1 2 — 


2. 第二行减去第一行乘以4, 



0 0 

_6 0 




3. 第三行减去第一行乘以6， 

厂 11 

10 T -1 

0 0-1 4 
DO -2 8_ 


4. 第二行乘以_1， 


「 11 
1 0 + - 1 

0 0 1—4 

_0 0 —2 8 _ 


5. 第一行减去第二行乘以+， 
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6. 第三行加上第二行乘以2， 

"10 0 1 ' 

0 0 1-4 
.0 0 0 0 _ 

由于矩阵 A 中有一个零行，我们知道，零行可以写成其 
他行的线性组合，所以矩阵 A 的秩等于其行数减1，其值等于 
矩阵 A 的行简化阶梯形矩阵 (RREF) ——、的秩。因此，我 
们可知，初等行变换不会改变一个矩阵的秩。 

一 个非奇异方形矩阵的 RREF 是一个单位矩阵，因此， 
非奇异方形矩阵的秩又等于其阶数。相反 ，一 个奇异矩阵的 
值比其阶数小。 

之前我们定义矩阵 A 的秩为其行空间的维度。其实，矩 
阵 A 的秩与其列空间的维数也相等，换句话说，矩阵 A 的秩 
又等于矩阵 A 中线性独立的列数。 


线性联立方程组 

含有 n 个未知数的 m 个线性方程组用矩阵形式可表 
达为： 

A x = b [1.10] 

(mXnKnXl) (mXl) 

其中，矩阵 A 是由未知数的系数组成的，向量 b 是由方程等 
号右边的常数项组成的，*为未知数向量。假设方程的数目 
和未知数的数目相等，即 m = 7Z， 或者矩阵 A 为非奇异矩阵， 
那么,方程 1. 10有唯一解，即 x = A— b。 

同理，如果 A 为奇异矩阵，那么 A 就可以通过一系列初 
等行变换被转化为 RREF： 
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Ar ^ Ep^"EgEi A == EA 

通过对方程左边和右边同时应用行操作，则 得到： 

EAx = Eb 

ArX = b R [1.11] 

其中， h 三 Eb 。 因此方程 1.10 和方程 1.11 是等 价的。 

以 r 表示矩阵 A 的秩。 r < W (考虑如果矩阵 A 为奇异矩 
阵)，4包含 r 个非零行和 n — r 个零行。如果矩阵、的任 
意零行在向量 h 中的对应元不为0,那么，该方程组是不一 
致的，我们称这样的方程组为“超定方程组”，因为该方程组 
中存在自相矛盾的方程。 


Oxi + 0 工 2 + …+ Ox„ = 6 尹 0 

如果 矩阵匈 的任意零行在向量 N 中的对应元为0,则该方 
程组是一致的，但此时该方程组却有无穷多个解，其中 n-r 
个未知数可以取任意值，这个未知数又决定了其他 r 个 
未知数也会有无穷多个解。我们称这样的方程组为“欠定方 
程组”。假设方程的数目小于未知数的数目，即 m < n ， 那 
么， r 必然小于 n ， 该方程组既可能是超定方程组（如果矩阵 
Ar 的零行所对应的向量 N 的元非零)，也可能是欠定方程组 
(如果方程组是一致的）。我们可以考虑以下方 程组： 

-2 0 -1 Z 
4 0 10 

-60 1 2 . 

将等号右边的常数矩阵加入该矩阵后 得到： 


x K 



第 1 章矩阵、线性代数和几何向量 I 


'-2 0-12 1 " 
4 0 10 2 

_ 6 0 1 2 I 5. 

将左边系数矩阵变为行简化矩阵的步骤为: 
1 . 第一行除以 _ 2 , 



2. 第二行减去4乘以第一行，第三行减去6乘以第 
一行， 



3. 第二行 乘以一 1， 



4. 第一行减去 j 乘以第二行，第三行加上2乘以第 
二行， 

1/ 0 0 1 —J 

0 0 1 〆 一4 -4 I (首非零元用箭头标出） 


40 


社会嫌计的 数 学基碥 


写成方程组形式，我们 得到: 



jo 3 - 4x 4 =— 4 

Oxi + 0 工 2 + O13 + 0 工 4 = 0 

第三个方程没有提供任何有用的信息，但是它说明了“原 
方程组是一致的”。前两个方程暗示了未知数*^和: r 4 可 

以取任意值（我们用4和 < 表示），那么^和 x 3 可表 
示为: 




x 3 = 一 4 + 4 工 : 


因此，任意向量 



为原方程组的解。 


现在，我们考虑另一个方 程组: 
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将向量 b 合并到系数矩阵 A 中进行初等行变换后，我们得到 
的行简化矩 阵为： 

_ 1 0 0 1 {■ 

0 0 1-4-2 

L0 0 0 0 2- 

最后一个方程如+ 0 x 2 + 0 x 3 + 0 j ：4 = 2是自相矛盾的，因 
此，原方程组无解。 

假设方程组中方程的数目大于未知数的数目，即 m > n 
如果矩阵 A 为列满秩矩阵 ( r = n ), 那么矩阵、包含 n 阶单 
位矩阵 和饥一 r 个零行。若方程组是一致的，那么，该方程组 
有唯一解，否则，该方程组为超定方程组。当 r < n 时，方程 
组既可能为超定方程组，也可能为欠定方程组。 

我们可以在一个二元方程组 [6] 里证明以上 论述： 

a\\0C\ +a 12 x 2 = b x 

Q ， 2\ X\ ~h 0.22 ^2 ~ ^2 

a 3 i X] + a 32 = b % 

每个方程都可以在一个二维平面坐标系里表示，其 
中，坐标轴由两个未知数构成（如图 1. 13)。如果三条直 
线相交于一点，如图 1. 13( a )， 那么方程组有唯一解—— 
两个未知数 (< 、 <) 同时满足三个方程。如果三条直线 
没有相交于一点，如图 1. 13( b ) 和图 1. 13( c ), 那么两个未 
知数无法同时满足三个方程，因此该方程组为超定方程 
组。最后，如果三条直线重合，如图 1.13( d )， 无论未知数 
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取什么值，都可以满足三个方程，此时，方程组被称为“欠 
定方程组”。 




V 




注 :(a) 唯一 解 ; （ b ) 和 (c) 超定方 程组; (d) 欠定方程组(三条直线重合)。 

图 1.13 含有两个未知数的三个线性方程 


如果等号右边的向量 b 在线性联立方程组里为零向量 
时，方程组被称为“齐次方程 组”： 

A x =0 [1.12] 

(mXn)(nXl) 

那么，平凡解 x =❶总是符合齐次方程组，因此，方程组不可 
能不一致。通过上文的介绍，我们知道，非平凡解只有当 
rank ( A ) < «时,即方程组为欠定方程组时才存在。 

表 1. 1总结了有关线性联立方程不同情况下的解。 [7] 

线性联立方程在统计上被广泛运用，例如，我们熟悉的 
最小二乘回归分析。 
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表 1. 1含有 《个未 知数和 m 个线性联立方 程的解 


方程个数 

m〈n 

m — n 

m 

>n 

系数矩阵 
的秩 

r<Cn 

r < n r — n 

r < « 

r = n 

一般方程系统 

一致 

不一致 

欠定 

超定 

欠定 唯一解 

超定 一 

欠定 

超定 

唯一解 

超定 

齐次方程系统 

一致 

非平凡解 

非平凡解 平凡解 

非平凡解 

平凡解 


广义逆矩阵 


我们了解到只有方形非奇异矩阵才有逆阵。那么，对于 
所有矩阵，包括奇异矩阵及长方形矩阵，它们拥有的是广义 
逆矩阵，广义逆矩阵在统计学中非常有用，例如，在介绍线性 
统计模型时非常有用。 [8] 

(m X n ) 阶矩阵 A 的广义逆矩阵为 X m ) 矩阵 A ~ ，其 
满足方程： 


AA~ A= A 

请注意， A - 是一个广义逆矩阵，而不是矩阵 A 的广义逆矩 
阵。除非 A 是方形非奇异矩阵(在这种情况下， A _= AH )， 
否则广义逆矩阵就不是唯一的。 [9] 

许多方法可以帮助我们找到矩阵的广义逆矩阵，例如， 
高斯消去法。我们先通过初等行变换把矩阵 A 变为 RREF ： 

EA = Ep … E 2 E 1 A = A K [1.13] 


其中， E=E P …佐瓦是一个 （ mXm ) 的非奇异矩阵。再通过 
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第二类、第三类初等列变换(转置是不必要的，因为、中所 
有的首非零元已经为1)，我们进一步将 A « 简化为标准 形式: 


A 


ArE 




WE ； … E: 


0 

Lfm-rXr) 




[1.14] 

其中，是一个 （ nXn ) 的非奇异矩阵，左上 
角单位矩阵的阶数 r 是矩阵 A 的秩，其他所有零矩阵可有可 
无。因为，如果 A 是 一 个 n 阶非奇异矩阵，则 r = rij 那么在 
这里，我们就不需要零矩阵。 

将方程 1. 13和方程 1. 14合并, 得到： 


Ac = EAE* 

那么, A 的广义逆矩阵为 

A~=E*AcE 

现在我们考虑 矩阵： 

—一 2 0 -1 2 一 
A = 4 0 10 

. 6 0 1 2 . 


[1.15] 


在上文中，我们将该矩阵变为行简化矩阵后，得到: 



Ar = 0 

_0 


0 0 
0 1 
0 0 


11 



0 


通过交换第二列、第三列，把第四列元素归零，将矩阵化为标 
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准形式后 得到： 

"1 0 0 0 " 

Ac = 0 1 0 0 

_0 0 0 0 _ 

将所有的初等行列变换写成矩阵，我们 得到: 



"1 0 0 — 1 " 
0 0 1 0 

E * = 

0 10 4 

J 0 0 0 1- 


通过以上矩阵， 

A- = E* AcE 


^10 0 
0 0 1 

0 1 0 

-0 0 0 



— — 0 
2 2 

= 0 0 0 
— 2-10 
_ 0 0 0 _ 

我们得到的为矩阵 A 的一个广义逆矩阵。 
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我们考虑一个含有《个未知数和 m 个线行联立方程的 
方程组， 

A x = b 

(TnXji)CnXl) (mXl) 

假设该方程组是一致的且为欠定方程组，那么， 

x * = A ~ b [1.16] 

该方程组有无数解。如果方程组有唯一解，那么，我们可以通 
过方程 1.16 算出。最后，如果该方程组是超定的，那么，方程 
L 16无法满足原方程组，即方程组无解。因此，我们可以知 
道，如果方程组是一致的，那么， AATb = b ， 否则 ,AA b # b 0 
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第5节 | 特征值与特征向置 




如果 A 为 n 阶方阵，那么，齐次线性方程组 

( A - AI„)x = 0 [1,17] 

只有在纯量 A 为某几个特定数值时，它有非平凡解。通过上 
面的内容，我们知道，当矩阵 （A — AU 为奇异矩阵时，方程组 
存在平凡解，即当满足下列条 件时： 

det(A —AI„) = 0 [1. 18] 

方程 1. 18称为矩阵 A 的“特征方程”， A 为矩阵 A 的特征值、 
特征根或者潜伏根。在某一特征值; U 下满足方程 1. 17的向 
量^称为在特征值1下，矩阵 A 的“特征向量”。 

为简单起见，我用一个 （2 X 2) 矩阵的例子来详细解释。 
对于此例，特征方程可写为： 

「 a u — A a 12 " 

det =0 

■ ^21 0,2Z — A- 

(a n ——A) (a 22 — A) ~a u a Z i =0 
A 2- (a n +a 22 )A+aii<2 2 2 一 ai 2 a 21 =0 


利用一元二次方程的相关公式来计算其两个平方根， 
则有 [11] : 
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1「 ---- 

Ai = ^ an + fl 22 + v (an +a 22 ) 2 — 4 (ana 22 ——a 12 a 21 ) 

i r -- —二 

A 2 = Y au 一 y (an +a 22 ) 2 — 4(a u a 2 2 ——a 12 < 2 2 i) 

[1. 19] 

如果根号以下部分非负，那么该平方根必为实数。注意，有 
可能存在 A 】+ A 2 = 如 + a 22 ( A 的特征值之和等于 A 的迹)和 
A 】 又2 = ^ U a 22 —^12^21 (特征值的积等于矩阵 A 的行列式的值) 
的情况。而且，如果 A 为奇异矩阵 ，则； U 为0。 

当矩阵 A 为对称矩阵(在特征值和特征向量的统计应用 
中很常见)时，有 a i2 = a 21 ，方程 L 19变为： 



[ 1 . 20 ] 


由于方程 1. 20根号以下的部分不可能为负，因此，该 （2 X 2) 
对称矩阵的特征值必为实数。 

例如，我们有如下 矩阵： 

- 1 0 , 5 - 

-0.5 1 - 


那么，可以 得到： 

1 = j「l + l + 7(1-1) 2 +40. 5 Z 1 = 1.5 


又 2 = j 1 + 1 _ v^(l _ l ) 2 + 40. 5 2 = 0. 5 

要找到特征值为 A : = 1.5 时的特征向量，我们需要解齐次方 
程组， 
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得到: 


1-1.5 

0.5 - 

工11 

■0 

0. 5 

1 — 1.5- 

■ 

-0 

_-0.5 

0.5 1 

工11 

_0_ 

■■ 

- 0.5 

_ 0. 5 - 

-工21 ■ 

m- 

Lo 」 



在这里，任意向量都包含两个相同元。同样，对于 A 2 =0.5, 
我们要解特征方 程组： 


"1—0. 5 

0. 5 " 

>2, 


-0- 

-()• 5 

1 _ 0. 5 - 

- 工22 - 


-0- 


得到: 


—0.5 

0. 5" 

，工 12_ 


-0- 

-0.5 

0.5 - 

-工22 - 


-0- 


工12 

X 2 — 

匕工22 



— X Z2 - 


在这里，任意向量都包含两个互为相反数的元。所得特征值 
下的特征向量可以扩展出一个一维子 空间： 当指定了特征向 
量中的一个元时，另一个元也随之可得。可以发现，这里所 
求的两个特征向量 x ! 、 x 2 是互相正交的 ，即： 

Xi • x 2 x^xl z +X 2 *X2 2 = 0 


许多有关 （2 X 2) 矩阵的特征值和特征向量的性质可以 
推广到 （《 XrO 矩阵中，尤其是以下几种 情况 〆 1) 一个 ( nXn ) 
矩阵的特征方程 det(A —AU = 0是 A 的 n 阶多项式，因此， 
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它的 Z 2 个特征值不一定完全不同 [12] ; (2) 矩阵 A 的所有特征 
值之和等于 A 的迹; (3) 矩阵 A 的所有特征值之积等于 A 的 
行 列式; (4) 矩阵 A 的非零特征值个数等于 A 的秩； （5) 奇异 
矩阵至少有一个特征值为0; (6) 实对称矩阵的特征值必为实 
数; （7) 如果矩阵 A 的所有特征值全都不同（两两均不同）， 
那么特征值下的特征向量可扩张出一个一维子空间;如果有 
是个特征值全相同，那么它们产生的（同一个)特征向量可以 
扩张出一个 A 维子 空间； （8) 不同特征值所产生的特征向量 
是两两正交的。 

假设 A 为一个 ( nXn ) 实对称矩阵，且秩等于 r 。 让 A = 
diag(Ai , A 2 , …， Ad 表示 A 的所有非零特征值， x , 表示特征 
值 A , 下的特征向量，标准化后，我们得到 II I || = 1。用叉= 
[ X 】， x 2 , …， xj 表示所有的特征向量，那么， 

A = XAX f [1. 21] 

方程 1. 21称为矩阵 A 的“谱分解”，它是统计方法中主成分 
分析和因子分析等方法的基础。 

如下为特征值及特征向量的推广运用 :假设 A 为一个 
(« Xn ) 实对称矩阵，我们可以将方程 1. 17替 换成： 

(A-AB)x = 0 

其中， B 也是一个 （n X «) 实对称矩阵，而且是一个正定矩阵。 
那么，满足该方程的 A 称为矩阵 B 下矩阵 A 的“广义特征 
值”。我们发现，广义特征值其实是矩阵 AB — 的一般特征 
值。广义特征值和特征向量在多元统计分析中非常有用，如 
多元线性模型的假设检验。 

特征值和特征向量的另一种推广是将其运用在长方形 
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矩阵中。假设矩阵 A 为 （ mXn ) 矩阵，且其秩为 r 。 那么 ， A 
可分 解为： 


A = B 

(mXm) 


r a 

(rXr) 

0 

—(jii— rXr) 


0 " 

frXTi—r) 

0 

(m — rXfi — r)— 


c 

(rtXrt) 


1 . 22 ] 


其中， （1) 矩阵 B 和矩阵 C 为正交矩阵，但不 唯一; （2) A 2 是 
个对角矩阵，它包含矩阵 A ' A 和 AA '( 其所包含的特征值 
相同)的所有非零特 征值; (3) 并不是有所有零矩阵都会用到 
(当然，如果 r=m = n , 那么方程 1. 22可以简化为方程 1. 21 


的谱分解)。 

方程 1. 22称做矩阵 A 的“奇异值分解”，矩阵 A 的对角 
元为矩阵 A 的奇异值(因此是矩阵 A/A 和 AA ' 特征值的平方 
根)。奇异值分解非常有用，比如在提高最小二乘计算的效 
率和精度上。 
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第6节 | 二次型及正定矩 ft 



表达式 

\ A x [1.23] 

(lXrt)CnXn)CnXl) 

称为 “ x 的二次型”。在本节里，矩阵 A 从始至终表示一个实 
对称矩阵。如果对于所有非负 x 表达式 1. 23都为正，那么， 
我们说矩阵 A 为正定矩阵。对于所有非负 X ，表达式 1.23 都 
为非负（即正或0)，那么，矩阵 A 为半正定矩阵。一个正定矩 
阵的所有特征值均为正（因此，正定矩阵是非奇异矩阵） ，一 
个半正定矩阵的所有特征值均为正或者为0。 

请看以下方程： 


C = B ’ A B 

(mXm) (mXw) (nXu) ( 砍 /n 〉 

其中， A 为正定矩阵， B 为列满秩矩阵 ， m < n 。 我会证明，矩 
阵 C 同样是正定矩阵。注意，首先矩阵 C 是对称的。 

C ' = (B AB ) 7 = B A B = B AB = C 
如果 y 是任意 （mX 1) 非零向量，那么 x = By 也为非零向 

(«X1) 

量。因为矩阵 B 的秩为 m ， 我们可以从 B 中选择 m 个线性独 
立的行组成一个非奇异矩阵那么 ， f = B y , 它包括 

(71X1) 


向量 X 中所包含元的子集，且也是非零的，原因在于 y = 
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T ^ Oo 因此， y ' Cy=y B ' ABysx ' Ax 必然为正，所以矩 
阵 C 为正定矩阵。同理，如果 rank ( B ) <饥，那么矩阵 C 为 
半正定矩阵。如果 B 为列满秩矩阵，那么矩阵 B = 

(mXit) (flXm) 

BlBS —个正定矩阵(因为矩阵&明显为一个正定矩阵）， 
否则为半正定矩阵。 

正定矩阵和半正定矩阵，如方差一协方差矩阵、相关矩 
阵平方和和乘积矩阵，在统计中都起着至关重要的作用。 


Cholesky 分解 


每个对称正定矩阵 A 都可以被唯一地写为 A = U ' U , 其 
中， U 是一个对角元素为正的上三角矩阵。 U 称为矩阵 A 的 
“ Cholesky 因子”，或者可以看成是某种矩阵的平方根。 
现在我们来考虑一个 （3 X 3) 矩阵： 


同时用矩阵 U 


1.0 0.5 0.3" 
A = 0. 5 1. 0 0.5 

.0. 3 0. 5 1. 0. 


u u 

U = 0 
_0 


“12 

M13 

M22 

^23 

0 

W33 


来表示矩阵 A 的 Cholesky 因子。那么， 




I— 


U U U U 


Mil U U 


2 丄 2 

十 ^22 


Mil 


m 12 鉍13 + “22^23 


«13 «11 U U U U +U 23 U 22 U u + MgS + «33 
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"1.0 0.5 0. 3~ 

= 0. 5 1. 0 0. 5 = A 

.0. 3 0. 5 1. 0_ 

进而 得到： 

Mjj ― 1. 0 —► Mu =1.0 

Ml2 Mu = Wi2 X 1 = 0. 5 w 12 = 0. 5 

uf 2 + i4 z = 0. 5 2 + u 22 = 1 - ► m 2 2 = Vl — 0. 5 2 — 0. 8660 
u u u u = m 13 X 1 = 0. 3 — ► m 13 = 0. 3 
Mi3 mi 2 + Uzs u 22 = 0. 3 X 0. 5 + u 23 X 0. 8660 = 0. 5 —► 
u 23 = (0.5-0. 3 X0. 5)/0. 8660 = 0. 4041 

i^ 3 + ?4 3 + i4 3 = 0. 3 2 + 0. 4141 2 + = 1 -► 

u 33 = 71 —0. 3 2 -0. 4141 2 = 0. 8641 


因此， 



0. 3 

0. 4041 
0. 8641 


这个过程可以引申到任意秩的对称正定矩阵上。 [13] 
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第7节 I 推荐两读 



有关矩阵及线性代数的书籍很多，大多数仅仅描述了有 
关向量空间的基本属性，却没有提供详细的图解。 

关于矩阵的书籍，包括希利 （ Healy ， 1986)、格雷比尔 
( Graybill ， 1卵 3 )、瑟尔 （ Searle ， 1 9 82)以及格林 ( Green ) 和卡 

罗尔 ( Carroll )(1976) 的研究，均主要针对统计应用。后几本 
的几何描述很详细。 

戴维斯 ( Davis ，1973) 的著作对矩阵代数的描述清晰且 
简单，包括一些向量几何内容，但较为有限，仅局限于二维 
空间。 

南布狄瑞 ( Namboodiri ，1984) 的著作关注矩阵代数的解 

释，结构紧凑，但是不包括向量几何。 

有关统计计算的书籍，有肯尼迪 （ Kennedy ) 和金特尔 
( Gentle ) ( 1980 ) 及莫纳汉 （ Monahan ) (2001) 等人的著作，主 

要描述了矩阵和线性代数在数字计算机中的应用。 
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社会统计的数学基碥 


微积分主要处理两种 问题: 寻找曲线的切线斜率(微分) 
和计算曲线下方的面积(积分)。早在17世纪，英国物理学 
家、数学家艾萨克 • 牛顿爵士 (Sir Isaac Newton ) 和德国数学 

家、哲学家戈特弗里德•威廉•凡 • 莱布尼茨 Gottfriend 
Wilhelm von Leibniz ) 就各自独立地证明了这两种问题的联 

系，进一步巩固并发展了古典时代的数学。因此，牛顿和莱 
布尼茨是公认的微积分创始人。 [14] 到了 19世纪，伟大的法 
国数学家奥古斯丁 • 路易斯 • 柯西 (Augustin Louis Cauchy ) 

与其他学者一起引入了极限的概念，从而为微积分建立了一 
个在逻辑上更为严格的基础。 

在本章中，我们首先简单回顾一些基础数学，然后，按如 
下次序简要地介绍微 积分: 方程的极限;方程的求导;利用求 
导解决最优化问题;多变量的偏导、条件最优化和矩阵的微 
积分;泰勒展式和渐近式;积分学的重要思想。 

虽然我的叙述远不够严格、透彻，但是读者仍可以从中 
获得许多对微积分基本问题的直观认识。 
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第1节 I 回顾 


对不同类别数字的定义取决于所要研究数学问题的深 
度，对于社会科学，如下基本定义已经可以基本满足我们的 
研究需要了： 

第一，自然数包括0及所有正整数。 [15] 

第二，整数包括所有负整数、正整数和0。 

第三，整数和分数统称为有理数，任何一个有理数都可 

以写成分数1(打和/«是整数，且 m 关 0) 的形式。 如一 + 

m L 


和 


123 



第四，实数包括所有的有理数和无理数，例如 ，斤〜 
1. 41421,数学常数 7 T 〜 3. 14159及 e 〜 2. 71828,这些数都 

不能写成两个整数的比例。所有实数可以投影到一条连续 
的直线上，从到+°°。 

第五，复数可以用表示，其中， a 和6是实数， i 是虚 


数，2 
的点 


虚数部分的系数 W 。 当6=0时，复数即实数。 


V ^ To 在直角坐标系中，复数可以想象成复平面上 
〜横轴即实轴对应于实数部分〜纵轴即虚轴对应于 
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线和平面 

直线可以用方程表示： 

y ~ a^bx 

其中， cz 和6是常数，且 a 是 y 轴截距 （ X =0 时的 y 值)，6是 
斜率 U 增加1时^的变化)。图 2.1 表示在二维坐标下以 x 
和^为轴的直线，对于每一种情况，直线都是可以向左右无 
限延伸的。如果斜率是正的 （6 >0)，直线从西南往东北延 
伸; 如果斜率是负的（6<0),直线从西北往东南 延伸; 如果 
6=0,直线是水平的。 


(a) 6 > 0 (b) 6 < 0 (c) 6 = 0 



注 ：（ a)6>0; (b)6<0 ； (c)6 = 0 。 

图 2.1 直线 = o + far 的图像 


同样，我们有线性 方程： 

-Jm 

jiT ,4 . •-_、、： 

y ~ cl^\~ b\X\ ^ b^Xi 

IT 

它代表三维空间的一个以 X ,、 
A 和7为轴的平面，如图 2. 2 

注:这 里斜率《、 知都是 正值。 所示。々、 x 2 和: y 轴两两垂 

mz2 直，我们可以把 x 2 轴的方向想 
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象成垂直于纸面向内，且平面在各个方向无限延伸。据图， 
截距 a 表示在 A 和 x 2 都为0时的 y 值; fh 表示固定了 x 2 值 
后，平面在: d 方向上的斜率;6 2 表示固定^值后，平面在七 
方向上的斜率。 

直线方程还可以表示为其他 形式： 


cx -\~dy ~ e 


将其转换为截距式为 : 


y = 


e_ 

d 


c 



同样，方程 


Ci Xi + c 2 x 2 + rfy = e 


可以表示平面 


e 


d 


£l 


X 】 


£l 


多项式 


多项式具有以下 形式： 

y = a 0 +aix + a 2 x 2 + ~\~apX p 

其中， a c ， ai ， a 2 ，-, a , 是常数，除％外，其他系数可为0。 
最大的指数/>为多项式的阶。如图 2. 3所示，一阶多项式即 
一条 直线： 

y = do +a x x 

二阶多项式是二次 方程： 


y — cl^ +ai x + a2x 
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三阶多项式是三次 方程： 

y = a 0 +aiX-\-a 2 J^ +a s x 3 

一个/ > 阶的多项式有 一 1 个弯。例如，二阶多项式有 
一个弯，三阶多项式有两个弯， 等等。 

(a) y=ao ~\~a\x (b) y—Oa H~ai x~\~azx 2 (c) y~ao +ai x~ha2X 2 +a3x 3 



图 2.3 “典型”的一阶(线性)、二阶(二次型)、三阶(三次方)多项式 


指数和对数 

对数 方程： 

log* x = : y 

读作“以6 为底工 为真数的对数是 y’， 其等价于 

其中，6>0且6^1。 

logic 10 = 1 因为 10 1 = 10 
log】。 100 = 2 因为 10 2 = 100 
log 10 1 = 0 因为 10。= 1 
logio 0. 1 =— 1 因为 10 _1 = 0. 1 


同样， 


log 2 2 = 1 


因为2 1 =2 
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log 2 4 = 2 因为2 2 = 4 

log 2 1 = 0 因为2° = 1 

log 2 ^ =— 2 因为 P = 


实际上，不论底为何数，只要真数为1，其对数就为0,因为 
b ° = 1(6# 0)。在对数函数中， x 的定义域为>0。数学中 
有一些常用的底，如数学常数 e 〜 2. 71828,其中，以 e 为底的 
对数都称为“自然对数”。 [16] 


典型的对数方程不管其底如 
何，都具有类似的形状，如图 2. 4 
所示。有时为方便计算，我们常常 
需要将对数函数的底换为另一个 
常数或字符，这时，我们 得到： 



\ogaX = h^b X log * x 


该公式为换底公式。例如， 


log 1Q 1000 = 3 = log 10 2 X log 2 1000 ^0. 301030 X 9. 965784 

对数继承了指数的一些特性，如因此， 

logCj ：!^) = logj ：! + \ ogx 2 


同样，_ = ，因此: 


Og (^-)= logx】 — log x 2 


IT = ib x Y j 那么， 


log ( x a ) = a\ogx 


为了简化繁冗的计算，我们曾将乘法转化为加法、除法转化 
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为减法、指数转化为乘法。虽然现在已经不需要这么做了, 
但对数仍然在数学及统计学中扮演着不可或缺的角色。 

指数方程具有这样的 形式： 



y = a x 

其中， a 是常数。常用的指数有^ 
~ exp ( x ) = 〆 ，如图 2. 5所示。 

对数函数和指数函数互为反 函数: 


图 2. 5指数函数 ; y = loga ( a J ) = x , a lo ^ x = x 0 


三角函数 


图 2. 6 为一个单位圆-个圆心在原点，半径为1的 

圆。角工在圆内生成了一个直角三角形，同时，该夹角是以 
水平轴为起始轴，按逆时针方向旋转测量得出的。 


角: r 的余弦即邻边/斜 
边 (OA/OB)， 记为 cost ， 长 
度等于 OA (因为 QB = 1); 

角 x 的正弦即对边/斜边 
(AB/OB)， 记为 sim， 长度 

等于 AB; 角 x 的正切即对 
边/邻边 （AB/OA)， 记为 

tanjr = sinx/ cosx 。 



图 2. 6单位圆、夹角及其正弦和余弦 


如图17所示，正弦、余弦、正切函数角的取值范围为一 
360°到360°，其中负值表示顺时针方向旋转得到的角。当夹 
角趋近于 ±90° 或 ±270° 时，正切函数值相应地趋 近于士 c ^。 
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此外， sinj ： = cos(j:_90 )。 



smx 


360 "x 



- 1 . 



270 -90 



2.7 角度在 jc 


360° 和 jc = 360° 之间的正弦、余弦和正切函数 


有时，用弧度来度量角会更加方便， 2tt 弧度等价于 360° 
角度。如图2.6,由于单位圆的周长为 2 tt ， 因此我们可以用 
夹角两边所夹的弧长来代表弧度，如角 x 的弧度为 BC 。 
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第2节 I 极限 



微积分常用来处理具有^=/(工)形式的函数，我们所考 
虑的定义域（自变量的取值)和值域（因变量的取值)都是实 
数。极限用于考虑函数在其自变量 x 趋近但不等于某个数 
值时的行为。这是一个很重要的思想，尤其在函数没有对自 
变量 X 的某些数值给出定义或者函数在某些数值中没有意 
义的情况下。 


极限的“广5”定义 

函数 : y = /(^)在 *3： = (即一个特定的 x 值)处有极限 
L 。 对于任意正数 e ， 无论它多小，总是存在一个正数&只要 
满足 x 与 x Q 的距离小于&即只要: r 位于: r 。 左右两边足够 
小的 2 S 值域中， / U ) 和 L 的距离即小于用符号表 示为： 

I fix ) — L | <C e (0 < I x — Xo I <C 5) 

图 2. 8 形象地描述了这一定义。注意，其中 / U 。） 不需要 
等于 L 。 实际上，极限函数当/(工）在工= 心不 存在的时候最 
有用。若 L 是 / Cr ) 在 : r = 心时的极限，那么，这意味着当 *r 
从 A 左右两边趋近 A 时， / U ) 趋近于 L 。 用公式表 示为： 




注: X 。 上方对应的曲线的缺口表示当 


X Q — x 

心的值域 

工0 时函数值无法定义。 


图 2. 8 lim /( x ) = L ： 函数 /( x ) 的极限 


一个 例子: 如何 tfeem 


让我们来找出函数:V 




/( 工) 




x z _ 1 




-1 


在工0 




1时的 


极限。我们发现，/(I) 


—1 




是没有意义的（分母为 


0)。尽管如此，只要: r 不等于 



2 x 



2.9 Ilm ^^ 

JC— 1 


2 U 关 1) 


，无论它多么接近1，我们都可以将等式上下除 以工一 1: 


x 2 — 1 

X — 1 


( X + 1)(工一 1) 


X — 1 


X + 1 


因为: r Q + l = l + l = 2, 所以 


lim 


x 2 — 1 

X — 1 


lim(x+ 1) = 1 + 1 


图 2. 9展示了这个极限。 
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lim fix) — L 

读作“/(工)在趋近于 x D 时的极限为 L”。 

*尸/⑺ I 
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极限运算规则 


假设 /( ： C) 和 gCr) 是自变量 X 的两个函数，且在 X 
时都有 极限： 


lim fix) = a 
lim gCx ) = b 

那么 ， /( ： T) 和 gU) 的极限的算术运算如下 : 


lim[/0) + g(x)2 = a + b 
Iim[/(x) — g(jc)2 = a~b 
lim[/(x)g(x)] = ab 
^rn\^f(x)/g(j：)^\ = a/b (6^0) 

: r^j 0 

同样，假设 c ■和 n 是常数，且 lim fix) = a, 那么， 


lim c = c 
lim[c/(x)] == ca 


lim( [/(x) 

\ 


n 


lim x = jc q 


— 工 o 


因此， 
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第3节 | 函数求导 



现在考虑函数 y = f ( x ) 在 X 的两个值下的 情况： 

工=工1 ， M = /( 工1 ) 

^ = y yz = f ^2 ) 

差商是指从点 ( a ，: yi ) 到点 ( x 2 , : y 2 ) 时，: y 值的变化除以工值 
的变化 ，即： 

yz — yi _ Ay _ fix 2 ) — /( 工 1 ) 

X z _ Xi Ax X t — Xi 

其中，△读作 “ Delta ”， 是“变化”的简写。如图 2. 10所示，差 
商是连接点(工1，： Vl ) 和点(工2, : V 2) 的割线。 



图 2. 10差商 Ay/Ax 是连接(々，力）和(心， hi 两点的割线的斜率 

/( X )在 J 0 = Xi 时的导数是差商^在 x 2 接近 A 时的极 


限（即 Ax —0)： 
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dy 

dx 


lim 


/( 工 2 ) — /( 工 1 ) 


lim 


f(xi + Ar) — ) 

bx 


lim ^ 
Ar 


如图 2. 11 所示，导数是 fU ) 在 x = 时的切线。 



注: 随着七 逐渐趋近于 a ，割线越来越趋近于切线。 


图 2. 11导数是 /(&) 的切线斜率 


我们还可以用下面的符号表示 导数: 


= df(x) 
dx dx 



表达式 / Cr ) 强调了导数是 x 本身的一个函数。对于 dx 和 
rfy ， 可以将其想象成无限小但是不等于0的数值，在很多情 
况下的求导可以把它们当做数字来处理。求函数导数的过 
程叫做“微分”。 


导数^差商的极限 


给定函数 y = /( x ) = x z ,求任意 x 的 /'( j :) 。 
运用导数是差商的极限的 定义： 




/(x + Ar) — fix) 

hx 



(x + Ax) 2 — x 

Ax 
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]im x 2 +2xAr+Ar 2 -x 2 

Ar-^O AX 


= lim 



2 a : Ax + Ax 2 
Ax 


= lim (2 j ： + Ar ) = lim 2 x + lim Ax 

= 2 j: + 0 = 2 a ： 

由于 Ar 虽然接近于 0, 但是永远不等于0,因此除法是合适 
的。例如，曲线 ：y = /( j ：) = x 2 在 x = 3 时的切线是 /'( j :) = 
2 :c = 2 X 3 = 6。 


幂函数的导数 

* 

一般而言 ，: y = fix ) = ax n 的导数为: 


dy _ n 1 

^ jr - — vox 

ax 

例如 ，: y = 3 x 6 的导 数是： 


^ = 6X 3, 1 = 18x 5 

ax 

负幂函数和分数幂函数的导数是类似的，例如 ， y = ^ = 
| x - 3 的导 数是： 






4 x 4 


的导数是: 
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导数的运算规则 

假设一个函数是另外两个函数 的和： 

h{x) — fix') 十忌 (x) 

导数的加法法则与极限函数的加法规则一样，为 YCr ) = 
f'x) g f (x) 0 例如， 

y — 2x z + 3 工十 4 

—= 4x + 3 + 0 = 4x + 3 

dx 

注意，常数的导数(如上例中常数 4 的导数)为0,因为常数可 
以表 示为： 

y = fix) = 4 = 4r 0 

该结果的几何意义是 ，一 个常数可以用 u ， /平面的一条水 
平直线表示，而这条直线的斜率为0。 

对于多项式函数，导数的加法规则同样 适用： 

~-ax n = nax^ 
ax 

导数的乘法和除法规则比较复杂。导数的乘法规则为： 

hix) — f{x)g{x) 
h’ （ x) = f{x)g ix) + 

导数的除法规 则为： 


h { x ) — f { x )/ g { x ) 
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g { x ) f f { x ) — g ix ) f { x ) 




2 


例如 ， y = (工 2 + 1) (2 x 3 — 3 x ) 的导数为: 


dy 

dx 


( x 2 + l )(6 x 2 — 3) + 2 x ( 2 x 3 — 3 x ) 


又如 ，: y = 


X 

x 2 — 3 x + 5 


的导 数为: 


dy _ x 2 — 3 x +5 — ( 2 x — 3 ) 工 — — X 2 5 

dx ( x 2 — 3 j : + 5) 2 ( x 2 — 3 x + 5 ) z 


导数的链式法则为，假设 y 是 z 的间接函数 ，^ = / u )， 

Z = g(x ) : 

y = = h { x ) 

那么 o 关于 r 的导 数为： 


h \ x ) 




dy 




dx 




dy ^dz 

— x 

dz dx 


看上去分子和分母中的导数可以消去。 [17] 

例如，求函数 《 y = ( x 2 +3 j :+6) 5 中 y 关于工的导数 

dx 


我们可以展开幂函数(即括号里的表达式乘以它自身五次）， 
但是这样会使运算极其复杂。如果我们运用链式法则，会使 
运算简单得多。首先，引入一个新的变量^代表括号里的表 
达式： 


那么， 


z = g { x ) = x 2 + 3 x + 6 
y = fCz ) = z 5 
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然后用: y 对2：，2：对 X 分别求导数得到 


dy^ 

dz 


i- 4 

DZ 


dz 

dx 


2 x ~h 3 


运用链式法则得到: 


由 +3) 


最后，用 X 替代 z ， 得到: 


dy 

dx 




5( x 2 +3 j : + 6) 4 (2 j ： + 3) 


此例是典型的链式法则运用 :引入 一个“人为”的变量来简化 
表达式的结构。 


指数函数和对数函数的导数 


在应用统计中，我们经常会碰到指数函数和对数函数， 
因此，知道如何求这些函数的导数是很重要的。 

对数函数 : y = log ,( x ) 的导 数是： 


dlog^ (x) 
dx 


x 


X 


其中， lo & 是自然对数，即以 2. 71828为底的对数。 


事实上，简单的导数形式是自然对数称为“自然”的原因 


之一 


o 


指数函数^ 


的导 数为: 
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de ^ 

dx 


e 1 


对于任意常数 a 的指数函数 y = 〆 ，其导 数为: 


da a 

dx 


= a x log , a 


三角函数的导数 


基本三角函数的导数如下，其中，: C 是以弧度为单位的 


dcos 工 
dx 


smx 


dsin x 
dx 


cosx 


g/tanx 

dx 


cos x 


x 


3丌 


，即 cos x 9^= 0 


二阶或高阶导数 


因为导数是它本身的函数，所以可以被再次求导。函数 


fix ) 的二阶导 数为: 


fix) 


cfy df\x) 


dx 


2 


dx 


同样 ，: y 



的三阶导数是二阶导数的 导数: 


f ' x ) 


cPy 


dx 


3 


dx 


高阶导数以此类推。 
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例如，函数 y = fU ) = 5 x 4 +3 x 2 +6 的各阶导数为 


fix ) =: 

20jc 3 H - 6x 

fix ) = 

60 x 2 + 6 

fix ') 

=120 x 

r\x) 

=120 


= 0 

该函数五次以上的导数都为0。 
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无论是在统计学还是其他方面，导数的一个重要用途就 
是求最大化和最小化问题，换句话说，即求函数的最大值和 
最小值(例如，最大似然法估计、最小二乘法估计）。这些问 
题统一被称为“最优化”。 

如图 2. 12所示，如果函数处于相对(局部)最大值或最 
小值(即该数值大于或者小于周围的数值），或者处于绝对 
(全局)最大值或最小值(即该值至少跟其他数值一样大或者 
一 样小），处于该点的切线是水平的，所以函数在该点的导数 
为0。 



图 2. 12函数的导数为0的点是函数 / U ) 的最大值或最小值 

但是，导数为0的点并不一定是函数的最大值或者最小 
值。如图 2. 13所示，拐点(函数弯曲方向发生变化的点)的导 
数同样为0。导数为0的点统称为“驻点”。 
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图 Z 13 导数为0的点 
是函数 / U ) 的拐点 


为了区别导数为0的三种情 
况——最小值、最大值、拐点，我们 
可以借助二阶导数(如图 2. 14)。 

原始函数 、一 阶导数、二阶导数 
的关系如图 2. 15 所示: / U ) 的一阶 
导数在两个最小值和一个(相对)最 

大值处为 0( 学= 0 




注 :在最 小值处 ，一 阶倒数 /'(X) 从负值由0变成正值，即一阶导数是递 
增的,因而二阶导数 T ) 是正的。正如一阶导数标示原来函数的变化一 
样，二阶导数可以标示出一阶导数的变化。在最大值处，一阶倒数 f (工)从 
正值由0变成负值，即一阶导数是递减的，因而二阶导数 /"(X) 是负的。而 
在拐点处，二阶导数 ru )= o 。 

S2.14 若函数 /U) 在最低点，随着 jc 变大，其一阶导数 变大； 
若函数 / U ) 在最离点 ，随着 x 变大，其一阶导数变小 



M 2 . 15函数的一阶导数和二阶导数 
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二阶导数 / Wrfx 2 在两个最小值处为正值，而在最大值处为 


负值。 


最优化的例子 


求下面这个函数的极值(最小值或最大值）: 

fix) = 2x z — 9x z + 12x 十 6 


该函数如图 2. 16所示(顺便提一下，确定局部驻点和确定它 
们是最小值还是最大值，对于函数作图很有用）。 


yi 



函数的一阶导数、二阶导 数为: 



’(x) = 6 工 2 — 18x+ 12 

— \2x z — 18 


令一阶导数等于0,然后求相应的: c 值得 


6x 2 — 18x + 12 = 0 
=>x 2 — 3x + 2 = 0 


=>(j: — 2)(x 一 1) = 0 


fix ) = 0 的两个根为 x = 1 和 x = 2。 
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对于: T = 2， 

/(2) = 2 X 2 3 — 9 X 2 2 +12 X 2 + 6 = 10 

/’(2) = 6X2 2 -18X2 + 12 = 0V 
/"⑵=12 X 2 2 - 18 = 6 

因为/"(2)为正值，所以点（2, 10) 代表了一个（相对）最 
小值。 

对于： T = 1， 

/(I) = 2X1 3 -9X1 2 +12X1 + 6 = 11 
/’⑴ = 6X1 2 -18X1 + 12 = 0V 

/ 〃⑴ = 12Xl 2 -18=—6 


因为/"( I )为负值，所以点（1， 11) 代表了一个（相对）最 
大值。 
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第5节 I 多变置和矩眸的微分学 

jaMMMMMH MMaBiB MHiBaiMamBaB iiMaMB iM ymmmMm i — g —iiiw_ a 


多变量的微分学在统计学中有着广泛的应用。多变量 
的微分学的关键思想非常直接,即它是单一自变量微分学的 


扩展，然而该话题在微积分入门介绍中经常被忽略。 


偏导数 


对于一个具有多个自变量的函数:)/ = /(々，為，…， x „)， 
: y 对于 I ,的偏导数即假定其他^为常数时， f (^， 工 2 ,…， 
x n ) 的导数。为了将它和常用导数办/血相区别，我们常用 a 
替代^来表示偏导数 :3： y / 心^。 

例如，已知函数 


y — /( 工 1 ，工 2 ) = oc\-\ - 3xi x 2 z +xl+ 6 


该函数对于:^和: r 2 的偏导 数为: 


3x x 


2x\ + 3x 2 2 + 0 + 0 = 2xi + 3jo 2 2 


3y 

dx z 


= 0 + 6x x x 2 + 3x 2 2 + 0 = 6xix 2 + 3j ：2 


求对于 A 的偏导数的“技巧”在于把其他: r 当做常数。所以， 
当求 J 对于 A 的偏导数时和 g 等均可被当做常数。 
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偏导数 a /( Il ， x 2 ， …， X ^/ dXx 给出了函数 /(： Ci ， 

x 2 ，…， •^^在巧方向上的切超平面。 [18 ]例如，函数 /( A ， j : 2 ) 
=工〖 +: CiX 2 + x ^ +10在 a =1和 x 2 = 2时的切面如图 2. 17 
所示。 



图 2_17 函数 /Un jt 2 ) =^；+^ 2 +^ + 10 

在 A = 1和 Xi == 2时的切面 


在局部/全局最小值或者最大值中，切面在各个方向上 
的斜率都为0。因此，要求一个多变量函数的最小值或最大 
值，我们就必须分别对每个变量求偏导，使之分别为0,然后 


解方程组 


o 


假设我们想寻找 A 和: r 2 的值，使得函数/(^， x 2 ) = 
x \ + X X X Z + X 2 + 10最小。首先我们分别对 A 和 x 2 求导: 


3 y 

dXi 


2 J：! + x 2 


^ JCi + 2x2 

dx 2 

当偏导数等于 0 时，我们可以得到唯一 解 ：: Ti = 0, x 2 = 0。 
在这个例子中，答案相当简单，因为偏导数是 A 、* r 2 的线性 
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函数。当函数最小时，其值 : y = 0 2 + 0 X 0 + 0 2 + 10 = 10。 
如图 2. 17所示，在:^ =1和巧=2以上的切面斜 率为: 

dy / 

—= 2(1) + 2 = 4 


—= 1 + 2(2) = 5 
3x 2 


拉格朗日乘数和受约束的最优化 

拉格朗日乘数使我们能在条件&(工1，工2，…， A ) = 0 
下最优化函数 ：y = /( xj , x 29 x „) 0 这种方法实际上是在 

偏导数中加入了限制。 

举个简单的例子:将函数 : y = f ( jC \ y OC 2 ) = x \ + x \ 最小 
化是要受条件 A + X 2 = 1 制约的(假如没有该约束条件，显 
然 A = x 2 = 0时函数最小)。解决受约束的最小化问题的方 
法 如下： 

第一，将约束条件移项成标准形式 gh ， x 2 ，…， jcJ = 0, 

得工1 +工 2 _ 1 = 0。 

第二，构造一个具有如下标准形式的新方程 : 

A(Xl ， X 2 ，…» X „ , A) = /( Xi ，工2，…，工 n ) — 

A X g(xi , jc 2 » … ， x n ) 

新的自变量 A 读作“拉格朗日乘数”，在这个例子中， 

h(x \ , x z j A) = x x x 2 — + 工 2 — 1) 

第三，寻找最优化函数 h ( x '， jc 2 ， …， x „， A ) 的 a ， 
x 2 , •••, x n j A 值，即让 AO! ， x 2 ， … ，： c n ， A) 分别对 A ， 
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工 2 ， …，工 n ，A 求偏导，把这个 72+1 个偏导数都设为 0, 然后 

解方程组求得 A ， A ，…， x „， A 。 在此例中， 


dhixi ，工 2 ， A) 一 

dX\ — 

= 2x\ _ 

dh{x\ ， x 2 ， A) _ 
^x 2 一 

= 2x 2 — 


dh{x \ , j : 2 ? A) , 

— ~- 三 m + 1 

注意，令 A 偏导为0所得到的等式即约束条件 X ：+ X 2 - 
1 = 0。因此，所有满足偏导为0的解必须首先满足约束条 

件。所以在本例中，其存在唯 一解： 

X\ = = 0. 5 ( 久 = 1) 

拉格朗日乘数可以解决多个约束条件的问题，只要我们 
给每个约束条件引入一个拉格朗日乘数即可。 

矩阵的撖分 

对于自变量为， X 2 ，…，的函数 ：y = f ( X '， JOz ， …， 
4)， 我们可以将其简化为 y = /( X ) 。 其中，向量 X = 
[^，&，•••， J 关于 X 的向量偏导数(或者梯度)是指 

^对于每一个列向量元的偏导数。 


第 2 章術积分入门 


如果^是 X 的线性方程， 


/ 


尸 (l ^ r a ^ +a2X2+ 


攀響 # 


dn^n 


那么， ^ y/^Xi = Ui , dy/dx = a , 例如， 


+ 3工2 — 5 x 3 = [1 ， 3 ， 一 5] 


工 1 


工 2 


匕3 


向量的偏导 数为: 


9\ 


3 

-5. 


如果 > 是 x 的二次形式， 则有: 


x 7 A x 

ClX7i)C«X«){flXl) 


其中，矩阵 A 是一个对称矩阵。把矩阵乘积展开后， 得到: 


a n x \ + a 22 Jot + *** + +2 ai 2 x 1 x 2 ~ 


拳攀 _ 


+ 2 a ln xix n 


m m m 


+ 2 a „_ i , „ jo„-ix„ 


因此， 


dy 

dxi 


2{ a il x l + a i 2 x 2 + … + a in x „) = 2 a:x 


其中， a (代表 A 的第 i 行。把这些偏导数写成向量形式，即 
dy/dx = 2 Ax 。 线性函数和二次函数的向量偏导数与单变量函数 
的纯量偏导数是一样的： diax)idx — a > d (. ax 2 )/dr = 2 ar 。 

例如，对于 
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d 2 y 

dxdx 



对于对称矩阵 A ， 3 2 (x Ax )/ ax 3 x ' = 2 A 。 

为了使多变量函数 : y = /( x ) 最小，我们可以将向量偏导 
数设为0,即 dy/dx = 0,然后解相应的关于 x 的方程组，得到 
解 X '如果海森矩阵在 x = r 时是正定的，那么该解代表 
函数的一个(局部)最 小值; 如果海森矩阵是负定的，那么该 
解代表函数的一个最大值。 [2 C )] 这与单变量函数的导数相同， 
即二阶导数为最小值时是正的，为最大值时是 
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负的。 

如之前的函数， 

y — /( X 】， x 2 ) = X ? + xix 2 + + 10 

在 A = : c 2 = 0. 5 处有一个驻点（即在该点上，其偏导数为 
0)，那么，函数的二阶偏导 数为： 

d 2 y d z y , 

-=-丄 

dX\ dXz dx 2 dXi 


^ 2 y d 2 y 9 

ox x ax 2 

因此，在 J ：! = x 2 = 0* 5 (或者其他点)时的海森矩阵如下 


r d z y 

d 2 y 

dx x 

dxi dx 

d z y 

d 2 y 

dx 2 dXi 

3 x z 2 


2 


2 1 


明显是正定的，那么，我们可以证明在 A = x z = 0. 5时 ，: y = 10 
J 6 f { x x , x z ) 的一个最小值。 
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第6节 I 泰勒展式 

- rn^ ■> — ■^*~认 ■ ■■! • ■■■ ■ - - '■ ■ ■ 4*MiM*iVl ■ I^^BI fll h 墨 Mlhll — 


假如一个函数 fum x = x 0 处拥有无限阶导数(尽管 
大部分可能是0)，那么该函数可以分解成泰勒 展式： 

fix) = /(x 0 ) + ■ ’ ■ 》 . ) ( 工 -:。)+ ^ g。) (.X — X 0 ) 2 

+ 广 3 ( 广 ） （x — 為 ) 3 +… 

= I ； f^u- Xo y [2.1] 

n=0 

其中， / ( W > 表示/的72阶导数， 7 Z ! 表示《的阶乘。 [21] . 

只要 X 充分接近 X 。，同时函数 /( •) 足够大，那么，我们 
只需要取泰勒展式的前几项就可能接近/( X )。例如，函数 
fix ) 在: r 与 X 。之间是二次型的，那么，/( X )就可以近似等于 
泰勒展式的前三项，剩下的导数会很小，可以忽略不计。同 
样，如果函数 / U ) 在 : t 和工。之间是线性的，那么 ， f ⑴就可 
以近似为泰勒展式的前两项。 

我们可以通过下面的三次函数来了解泰勒展式的 应用： 


fix) = l + x 2 +x 3 


那么，我 们有: 
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f f { x ) = 2 x + 3 j : 2 
/〃(:）=2 + 6: 
f m ix ) = 6 

/ Cn) ( x ) =0 (n > 3) 

取 A = 2, 求得各阶导数的值分 别为： 

/(2) = 1 + (2) 2 + (2) 3 =13 
/'(2) = 2(2)+3(2) 2 = 16 
/"(2) =2 + 6(2) = 14 

广 (2) = 6 

最后，我们利用 ^： o =2 时的泰勒展式来求 / Cr ) 在 x = 4时的 
值： 


/(4) = /(2) + 



'% (4 _ 2)+ ， (4 — 2y 


1 ! 



/ 〃⑵ 

1 ! 


(4 — 2) 3 


= 81 


将 X = 4代入原函数直接检 验得： 

/(4) = 1 + 4 2 +4 3 = 81 

在这个例子中，如果取少于4项的泰勒展式，就会得到一个 


很差的近似（因为这是一个三次函数）。 



I 社会统计的 数学基確 


泰勒展式和近似可以扩展到多变量函数中，当函数是纯 


量函数或者我们可以应用一阶近似或二阶近似时，问題就会 


变得很简单。假设= /( xj , x 2 , x „) = /( x )， 同时我 

们想知道/( X )在 X = Xq 处的近似，那么 /( x ) 的二阶泰勒展式 
可近 似为： 


/( x )^/( Xo )+[^( Xo )] , ( x -^) 

+ y ( x — x 0 ) / H ( x 0 )( x — Xo ) 

其中， /( x ) 的梯度 ^ r ( x ) = dy / dx , 海森矩阵 H ( x )= 
d 2 y / dxdk ， 它们都是在 m 的情况下估计的。我们可以 
发现，这个展式和方程 2. 1给出的纯量泰勒展式非常相似。 
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第7节 | 积分学的基本思想 



面积:定积分 


如图 2. 18,我们首先考虑一下曲线 / U ) 下水平坐标 x 。 
和 xW 司所包含的面积。这个面积可以由以下近似求 得:把 
x 。 和^之间的线段分成 n 等分，每段长度为 Ar ， 并分别和 
曲线 /( x ) 连接，构造成一系列长方形，如图 2. 19所示。那 
么，各个长方形底边所对应的 x 坐标分 别为： 

x 0 y x 0 + Axj x 0 + 2Ax ， … ， Xo+nAx 



图 2.18 函数 /( x ) 在和和心 

之间的区域 


图 2. 19曲线以下区域可看做 
无数长方形区域之和 


因此，所有长方形面积之和为: 


71-1 

y] /( 工 0 + iAa:) Ax % A 
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且面积的近似值会随着《值的增大而越来越精确。用极限 
表示为 [22] : 

A — limYl/Cxo + iAx)Ax 

该极限可以表示为 A = p /( x )^ r ， 读作 “/ Cr ) 在 d 。 到 

的定积分”。在这里，: r 。、 ^是积分域， Ar 是长方形长 
度 Ar 无限小的量。积分符号 (* 是拉长的 “ S ”， 其所表示的定 

m 

积分可以理解为连续求和。 

如图 2. 20所示，定积分同时确定了面积的符号，如果^ 
包含一些小于0的值，那么面积可能为负。 


图 2. 20积分 



和&之间为负) 


不定积分 


假设对于函数 /(X) ， 存在另一个函数 FU ) ，使 得: 


dF(jc) 

dx 



即 /( x ) 是 FCr ) 的导数，那么， F ( x ) 就叫做“/( I )的反导数” 
或者“不定积分”。 

一个函数的不定积分不是唯一的，因为假如 F ( x ) 是 
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/(X) 的反导数，那么， G (: T) = FCr )+ c 也是(其中， C 是绝对 
常数而不是: r 的函数)。相反，假如 F ( x ) 和 GU ) 均为 /(X) 
的反导数，那么则存在常数 c , 使得 GU ) = fXx ) 

例如 ，/( x ) = x 3 , 函数 jx 4 + 10是 / U ) 的反导数， 

-10和也是其反导数。事实上，任何 F ( x )= ^ 

- fc 形式的函数都是其反导数。 

对于不定积分，我们可以 写出： 


dFix) 


dx 



F(x) 






f(x)dx 


积分符号在定积分和不定积分中的应用是一致的，并且都称 
为“积分”(这将在下文叙述）。但是，在不定积分中，积分符 
号上没有积分域，同时请注意，定积分所包含的面积是一个 
特定的数字，而不定积分是一个函数。 


微积分的基本定理 


牛顿和莱布尼茨指出，曲线的反导数和曲线以下的面积 
存在一系列的关系。我们把他们所发现的这种不定积分和 
定积分之间的关系称为“微积分基本定 理”： 

f(x)dx — F(xi ) — F(x 0 ) 

其中 ， H • )是/( •) 的反导数。 

以下是一个关于该定理的不严格证明 ：如图 2. 21所示， 
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图 2. 21函斂 A { x ) 以下 or 。 
到 x 之间的区域 


考虑曲线 /U) 下一个定点:和一 
个动点: T 之间的面积 A (: T) 。 A (X) 
表明面积是X的函数 :面积随着工 
由左移向右而改变。在图 2. 21 
中，: r+Ar 表示一个比: T 稍微偏右 
的值， AA 表示 x 和 x + Ax 之间的 


面积，这个面积可以近似地看做一个长方形的 面积: 

AA 々 fix) Ax 

同时，我们可以把该面积表 示为： 


AA = A(j: +Ax) —A(x) 


求 A 关于: r 的导数，得到 


dAXx) 

dx 


lim ^ 

Ar—0 AX 


lim 


/(x)Ar 

Ax 


fix ) 


最后， AU) =\ fix)dx 是 /U) 的一个特别但未知的不定积 

分， FCr) 是 /Ct) 其他特定的、人为给定的不定积分。对于一 
些 c 值 ,A(x) =FOc)+r (如前所述，同一函数的两个不定 
积分的区别在于常数 c)。 我们知道， AU) = 0,其原因在 
于， A(x) 表示曲线在 x。 和 o: 之间的面积，而X。和 x。 之间的 
面积为0,所以， 

A(x 0 ) = F ( x 0 ) + c = 0 

=>c =—F(x q ) 

因此，对于特定值 x = 

A(xi) = f(x)dr = F(xi) — F(x 0 ) 
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其中， F (0 是 /(•) 的反导数。 

例如，我们想知道面积(定积分) A = \\ a ? + 3 ) dr ， 该面积 

J 1 

如图 2. 22所示,我们可以方便地选择 Fix ) = ^ +3x。 [如 


那么， 


图 2. 22 办所代表的区域 

A = F(3)-F(1) 

= (+3 3 +3X3 ) -(音 1 3 +3X1) 

= 18 — 3 j = 14 音 
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第8节 I 推荐两读 


关于微积分人门的书目种类繁多，而我仅仅读过其中的 
一小部分。当然，我最喜欢的是汤普森 ( Thompson ) 和加德 
纳 ( Gamder )(1998) 的著作。关于多变量微积分学在社会科 
学应用中的进一步的讨论，可参见宾默尔 ( Binmore ) 和戴维 
斯 ( Davies ) ( 2001 ) 的研究。 
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本章对应用统计学中广泛运用的概率及统计推理进行 
了概述。我们知道，初等统计课程，尤其是社会学专业开设 
的初等统计课程，对概率估计理论仅仅提供了简单的框架介 
绍。然而，深入了解并熟悉有关话题的背景知识是相当必 


要的。 


第 3 章概率估计 


第1节 I 初等概率理论 



概率基础 

在概率理论中，实验是对观察的可重复验证 过程; 结果 
是通过对一个可能的观察进行实验所得出的结论;实验的样 
本空间则为所有可能结果的集合。实验的任何特定“实现” 
都会在样本空间中产生一个特定的结果。样本空间可以是 
离散且有限的，或者是离散且无限的，也可以是连续的。例 
如，掷两次硬币，然后记录下每次投掷的结果（出现的是硬币 
的正面还是反面）。对于此例，实验的样本空间是离散且有 
限的，其结果组合为5= ( HH ， HT , TH ， 7 T }。 如果我们 

反复掷硬币，并记录每次投掷的结果，此时样本空间是离散 
且无限的，其包括的正整数组合有 S ={1， 2, 3,… } J 24 」 如 
果我们把灯泡一直开着直到保险丝烧断，并记录下灯泡从打 
开一直到自然熄灭所需要的时间，此时实验的样本空间就是 
连续的，其包括所有的正实数(这里无需明确指出灯泡寿命 
的上限 ）： S = U :： c >0}。 在本节中，我叙述的内容仅限于 
样本空间是离散且有限的情况。 

一个事件是实验的样本空间子集，即结果集合。如果包 
含在结果集合中的情况发生，我们就说该事件在实验中发 
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生。例如，对于 S= {HH, HT, TH , TT }， 如果我们得到 
结果或 ffT ， 则事件£：三 { HH ， HT } (代表第一次掷硬 
币出现正面)发生。请注意，通过以上定义，样本空间 S 本身 
和不包含任何事件的零或空事件彡都是事件。 

概率论定理 

令 S = h ， o 2 ，…，表示实验的样本空间； Oi = 
{ 0l }, a = { o 2 }, o „ - { 0 „} 表示单一事件，且每个事件 
包含一个结果;事件 { o a ， ，…， oj ， 为 S 的一个子空 
间(下标1 6,…， m 是1到《之间的不同数字)。概率是满 
足如下定理的事件所发生的可能性 [25] : 

PI ： Pr(E) >0 ： 一个事件发生的概率是非 负的； 
P2 ： PKE) =Pr(O fl )+Pr(0 6 ) + … +Pr(O m )， 一个 

事件发生的概率为所有构成其结果的和。 

P3 ： Pr(S) = 1 和 Pr(0) =0: 样本空间是穷尽的， 
即某些事件必然发生。 

假设样本空间 S = {HH, HT, TH, 7T} 包含所有结 
果，且每个结果发生的可能性相同 ，即： 

Pr ( HH ) = Pr( HT) = Pr(TH) = Pr(7T) = 0.25 

I 

那么，对于事件 £：= {HH, HT}, Pr(E) = 0,25 + 0.25 = 0.5 。 

这个例子比较简单，因为每个结果发生的概率都相同，正如 
扔硬币得到正反面的概率相同一样。实际上，只要各结果发 
生概率之和为1，即符合以上定理。 
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在经典统计学中，并且从大多数统计学应用的角度来 


看，概率是指长期的均衡比例。即，假如一个事件发生的概 
率为那么当实验重复多次，这个事件发生的概率会接近 


于 0. 5,且这个接近过程会随重复次数的增加而越发完善。 
这是客观论者对概率的一般性 理解: 概率为长期的相对频 
率，即均衡比率。 


事件之间的关系、条件概率与独立事件 


事件之间存在许多重要的关系。两个事件^和^的交 
集，记做尽 n 尽，它包括两个事件中共有的所有结果。因 
此 ，: pke n 拉）表示和£同时发生的概率。如果仄 n 尽 
=0，则称和尽无交集或者互斥。推广后，可以知道 ，一 
系列事件的交集 g 门…门瓦包含事件&到事件瓦共 
有的所有结果。例如，我们有事件尽= { HH ， HT }( 第一次 
掷硬币出现正面)、石三 { ffff ，7 HK 第二次掷硬币出现正 
面)和£* 3 三 {7 H ， IT } (第一次掷硬币出现反面），那么，可知 
E 、 = { HH } 9 E , 0^=0 9 E 2 f ] E 3 ={ TH } 0 

两个事件 £ l 和 e 2 的并集 Uf ： 2 包含两个事件中所有 
的 结果; 是事件^或者事件&发生的概率。那 
么， 事件巧 U 4 U … UK 的并集是&到&中含有的所有 
结果。如果这些事件无交集，那么， 

PrCEj U U … U & ) = 

i = l 

否则， 

Pr(Ej U 巧 U … U &) < JJPr(E,) 

i = l 
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由于不同事件中所包含的结果可能有重复，因此，某些事件 
发生的概率之和可能大于1。因此，任意两个事件发生的概 
率为： 


PrCEj U E 2 ) = PKE^+PrCE^-PKE, f) E 2 ) 

即两个事件分别发生的概率之和减去两个事件交集发生的 
概率(因为在算两个事件分别发生的概率之和时，交集部分 
被算了两次)。由此，可引申到事件发生概率相同的例子(如 
前所述，眾和尽无交集，而和瓦有交 集）： 

Pr(Ej U ^ s ) = Pr ( HH , HT ， TH ， 7 T ) = 1 

= Pr ( E 1 )+ Pr ( E 3 ) 

= 0. 5 + 0. 5 

Pr ( E , U E 2 ) = Pr ( HH , HT , 7 H ) = 0. 75 

= Pr ( E 1 )+ Pr ( E 2 )- Pr ( E 1 R E z ) 

— 0. 5 + 0. 5 — 0. 25 

给定事件^、事件 E 2 发生的条件概 率为： 

Pr(E 2 I E,) = 丹 ( 説 f 1 ) [3.1] 

条件概率可以这样 解释: 如果已知事件 £：, 会发生，那么，求 
事件^ 发生的概率。为求得 Pr (£ 2 H &) ，我们解方程 3. 1 
即可得到一般概率的乘法 法则： 

Pr ( E 2 n £ 1 ) = PKE^PKEz | E ：) 

交换 仄 和 £ 2 的角色后，得到以下 方程： 
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Pr (£】 


£ 2 ) = 


PrC^ n E 2 ) 

Pr ( E z ) 


[3. 2] 


PrCE, fl E 2 ) = PriEOPriE, \ E 2 ) [3. 3] 


如果 Pr ( E z flf ： i )= PrCE , ) Pr ( E 2 ), 我们说这两个事件 
为独立事件。方程 Pr ( f ： 2 = PtCEOPtCE ^ 称为“独立 

事件概率的乘法法则”。事件瓦和事件£： 2 的独立性暗示了 
PrCEj ) = PriE , \ £ 2 )和 Pr ( E 2 ) = Pr ( E 2 | E ,), 即，两个独 

立事件的无条件概率与已知其中一个事件会发生时，另一个 
事件的发生概率相同。推广后可知，若已知一系列独立事件 
{£：,， E 2 ，…，尽}，那么，对于发生其中任意两个或多个事件 
的子集的概 率为： 


Pr(E a 门 PI …门 £：J = Pr(EJPr(E 6 )-Pr(E m ) 

因此，若已知第一次掷硬币得到硬币正面，则第二次掷硬币 
也为正面的概 率为： 

n /Tr 1 jr x Pr(E 2 fl Ei ) 

Pr(E 2 1E X )^ pr(E}) 

= 025 
_ " 05 " 

=Pr(E 2 ) 

同理 f|E 2 )=0. ZStPrGE^PrCf^sO.SXO.S 。 因 

此，事件 ^ 和事件 E 2 是独立事件。 

两个事件独立与两个事件互斥不同，因为两个事件互斥 
暗示了它们不可能一起发生，所以，它们是互相依赖的。在我 
们的例子中，事件石和事件尽是独立但不互 斥的： e , n 

={ 闕关 0 。 
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事件 G 和事件&的差包含了所有在事件中发生而 
没有在事件£ 2 中发生的结果，记做& 一 E 2 。 那么实验样本 
空间包含的所有事件与事件 E 的差称为“事件£的补集”，且 
Pr (£) = 1 - Pr ( E ) e 对于之前提到的例子，结果发生概率相 
同的事件^ = { HH , HT }， 其补集发生的概率为 Pr ( E ,) 
= Pr ( TH , 7 T ) = 0. 5 = 1-0.5。 

Bonfeironi 不等式 

令 e = e , n 尽门 … n ,那么云=云 u 艮 u … u 艮， 

运用之前的方程 ，则： 

Pr ( E : n 瓦 n …门 &) = Pr ( E ) = 1 - Pr ( E ) [3_ 4] 

>i — E Pr ( 瓦） 

i = l 

假设所有事件， E 2 ，…， 尺发生 的概率都相等，那么，对 
于任意£；■，其发生的概率都等于 Pr (瓦）=1—6。那么， 

PriE , fl 瓦 f | … £；) e 1 — a [3. 5] 

>l — kb 

方程 3. 5 与一般方程 3. 4 都称为 “ Boneferroni 不等式”。 

方程 3. 5对线性联立方程的应用有以下暗示 :假设 6是 
每是个非独立统计检验的 I 类错误比率(例如,显著水平 a ) ， 
a 表示合并的 I 类错误比率，即々个非独立统计检验中至少 
错误地拒绝了一个为真的零假设的概率，那么 ， a < 66。例 
如，我们在 0. 01显著水平下检验20个为真的统计假设，那 
么至少错误地拒绝了一个为真的零假设的最大概率为20 X 
0.01 = 0.20,即五个为真的假设检验中就有一个被当做错 
误假设被拒绝。这提醒我们，有时天真的“发掘数据”可能会 
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导致严重的错误。 


随机变量 

随机变量是定义在样本空间上取值为实数的函数。对 
于之前所提及的样本空间 s = { HH , HT , TH , TT }， 一 

个记录掷硬币结果为正面的随机变量 X 可定 义为： 


结果 

X 的取值 

HH 

2 

HT 

1 

TH 

1 

TT 

0 


对于此例，如果 X 为离散随机变量，那么，我们通常把 
Pr(X = x ) 写成 〆 : c ) ，其中， 大写字母 X 代表随机变量，小写 
字母 z 表示变量的特殊值。 [26] 例如,掷硬币实验的四个结果 
发生的概率均为 0. 25，那么，岀现正面的概率分 布为： 


X 

p(jo) 

{TT 卜 

0 

0.25 

{HT, TH}— 

1 

0. 50 

{HH}- 

2 

0. 25 


总计 

1.00 


该表记录了所有事件匹配到每个随机变量 x 值后的结果。 

一个随机变量 X 的累积分布函数 CDF 给出可观测到的 
变量值小于或者等于某个特殊值的概率，记做 PU )： 

P ( x )= Pr ( X < x ) = ^ p ( x ) 

对于上述 例子： 
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如果随机变量是在一个连续变量空间中定义的，那么， 
这些随机变量本身也可能是连续的。这里，我们仍然用夕( X ) 
代表 Pr(X<x), 但是，对于随机变量 X 的每一个具体值来 

说 [27] ，这种表示就会显得毫无意义。概率密度函数 〆 x ) 是离 
散概率分布的连续模拟,定义为 pix )^ dP { x )/ dx 0 「剛变换 
后得到 [29] : 

, 

P(x) — p(x)dx 

― CO 

Pt(x q ^ X ^ o：i ) = P(xi ) — P(x 0 ) = p(x)dx 

因此，如图 3. 1所示，密度函数以下的区域代表概率。 


图 3.1 概率密度曲线 p ( x ) 以下的区域为概率 

最简单的连续概率分布是均勻 分布： 

' 0 a > x 

pix) = \ ~^_ a a < x < 6 [3. 6] 


0 


x > 6 
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图 3.2 ( a ) 均匀分布的槪率密度函数 pU } 和 ( b ) 均匀分布的 

JR 积分布函数 p ( x ) 

一 个随机变量的支持是一组概率或者概率密度不为0的数 
值。因此，均勻分布的支持为 

随机变量的两个基本属性是其期望值(或平均值)和方 
差。 [31] 从期望值可以知道随机变量概率分布的中心(这道理 
就如同一系列取值的均值指明了由这些取值所构成的分布 
的中心），方差记录了分布相对于期望值的分散程度。随机 
变量的期望值为随机变量通过多次重复试验得到的取值的 
均值，方差为取值和期望值之间的均方 距离。 

对于离散事件，随机变量 X 的期望值记做 £( X ) 或者 

A « x ， 表不为： 

E(X) 三 工） 

allx 

对于连续事件，随机变量 X 的期望值表示为 [32] : 

ECX) = xp{x)dx 

J ― oo 


第3章概率估计 

其密度函数见图 3. 2( a )， 相应的累积分布函数见图 3. 2( b )。 
密度函数下方整个区域的大小为1。这里， 

p ( x)dx = p { x)dx — ib — a ) = 1 

j — oo j a o a 
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一个随机变量 X 的方差记做 V ( X ) 或者4，定 义为： 

V ( X )=£[( X - / / x ) 2 ] 

因此，对于离散事件， 

V(X)^^(x- Mx ) 2 p(x) 

allX" 

那么，对于连续事件， 

V ( X ) = r ( x - Mx ) z p ( x)djc 

J — oo 

随机变量的方差是用平方单位来表示的(例如，“岀现正面的 

次数的平方”)，但是标准差 tx ^+77 的量度单位与变量 
相同。 

对于我们的例子， 


X 

pix) 

xp(jr) 

工 —fl 

(工一 AOf) 2 〆 工） 

0 

0. 25 

0. 00 

-1 

0. 25 

1 

a 50 

0. 50 

0 

0. 00 

2 

0. 25 

0, 50 

1 

0. 25 

总计 

L 00 

L 00 


ff =0. 50 


因此， E ( X ) = 1, V ( X ) = 0.5, 707。同样， 

对于均勻分布(方程3.6)， 


ECX ) = 



a +厶 


V(X) 



a~\~b 




b — a 



ia-b ) 2 

12 


两个离散随机变量足和不的联合概率分布提供了同时 
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观测到两个变量的任意一对取值的概率。我们把 Pr ( X x = 

和 X 2 = x 2 ) 记做 x 2 )。 但是的下标时常会引起歧 
义，因此，我们将其简化为/>(4, A )。 两个连续变量的 
〆 &， x 2 ) 的联合概率分布与离散变量的定义类似。多个随 


机变量的联合概率分布的表示方法为6(^，^，…，： c „) 


0 


不同于随机变量的联合概率分布 ，九 （ A ) 为随机变量 
X , 的边缘概率分布或者边缘概率密度。其中，/ > iU ) = 


D p(xi , x z ) 或者 Pi (xj ) = p{x x , x 2 )dt 2 , 我们常常 

' J —oo 

忽略下标而将其记做 pu 丄 


在一个掷硬币实验中，我们用不记录出现正面的次数， 
并定义 X 2 = 1时，两次掷硬币得到的结果相同， X 2 =0时， 
两次掷硬币的结果不同，那么， 


结果 

Pr 

工 1 

工 1 

HH 

0.25 

2 

1 

HT 

0. 25 

1 

0 

TH 

0* 25 

1 

0 

TT 

0* 25 

0 

1 


随机变 量不和 x 2 的联合边缘分布如下表 所示: 


p{x\ , 工 2 ) 


工 1 

X2 

p(x\) 

0 1 

0 

0 


0. 25 

0. 25 

1 

0. 50 


0 

0. 50 

2 

0 


0, 25 

0.25 

p(joz) 

0.50 


0. 50 

1.00 
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给定 x 2 , 不的条件概率或者条件概率密 度为: 


/ >112(:1 工 2 ) 


PVL (X] » X 2 ) 

P 2 ( 工 2 ) 


与之前相同，为方便起见，我们常常会省略下标，记做户 U Ix 2 )。 
X 才于该实验，当 X 2 =1时和当& =0时，条件概率 /> U | x 2 ) 为: 




p(xi | 工 2 ) 

1 > . ^ 

1 

Xi 

1 

X 2 

0 

1 

0 

0 

0.5 

1 

1.0 

0 

2 

0 

0.5 

总计 

1*0 

1.0 


给定 X 2 = X 2 时 ，将及 的条件期望值记做瓦 |2 (不 k 2 ) 或者 
E ( X } l ^)， 它是从条件分布 pi| 2 (xi Ia ) 而来的。同样，给定 
X 2 =巧时，及的条件方差记做％ |2 (見|巧）或者 VOUaK 
对于一个离散事件， 

El\2 (^1 I X 2 ) — -^1 P\\2 I A) 

% |2 (兄 u 2 ) - I x 2 )] 2 A l2 (A I A ) 

将具体数值代入后, 得到： 

E m ^ X , I 0) = 0(0)+ 1(1)+0(2) = 1 

Vi\ 2 CXi I 0) = 0(0 — l) 2 + 1(1 — l) 2 +0(2 _ l) 2 = 0 

I 1) = 0.5(0)+0(1) 十 0.5(2) = 1 


V ^\2 (Xi I 0) =0.5(0 — l ) 2 +0(1 — l ) 2 +0. 5(2 — l ) 2 = 1 
如果对于随机变量足和 X 2 的任意取值，都有 p ( x ,) = 
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pix , | x 2 )， 那么，我们说 A 和 X 2 是独立随机变量。也就是 
说，如 果足和 X 2 为独立随机变量，那么 ，足 的条件分布与 
边缘分布是等价的。对于以上题设，其独立性的等价条件还 

有 p{x 2 ) = p(x 2 丨工 1 )， pixi 9 X 2 ) = P (工 1)P(X2 )， 当兄和 

x 2 为独立随机变量时，它们的联合概率或者概率密度是它们 
边缘概率或概率密度的乘积。在此例中 ，及 和 X 2 明显不是 
独立随机变量。推广之，对于包含 n 个随机变量的独立集合 
{不 ，不，…， X „}， 其每个子集 { X a , 及，…， XJ ( m >2) 有: 

Pix a ， Xb ， ••• ， 工 m) = pix a )p{x b ) p(x m ) 

两个随机变量的协方差为它们是否线性独立的 量度： 
C(X' ， X z ) =ctu=E\ ： (X 1 -^)(X 2 ~ / x 2 )^ 

— E(XiXz) ~ fX \ fX 2 

当随机变量足较大的取值与随机变量 x 2 较大的取值相关 
时，其协方差为正；当随机变量兄较大的取值与随机变量 
x 2 较小的取值相关时，其协方差为负（反之亦 然）； 当两个随 
机变量属于独立随机变量时，协方差为0,但是随机变量的独 
立性并不是协方差为0的充分必要条件，即两个随机变量可 
呈现非线性相关，此时协方差仍可为0。在之前的例子中 ，足 
和 x 2 并不是独立随机变量，但是 cr 12 无疑为 0( 读者自己可以 

证实)。变量本身的协方差就是其本身的 方差： C ( X , X )= 
V ( X )。 

随机变量足和 X 2 的相关性= o 上 Oz 是个标准化 
后的协方差。相关性的最小值0=— 1，它表示随机变量之间 
存在完美的反线性关系。同样，相关性的最大取值是0=1， 
它表示随机变量之间存在完美的正线性关系。当 p = 0时， 
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协方差为0,此时随机变量间不存在线性关系。 

为方便起见，我们常常将一系列随机变量写成一个随机 
向量。例如 X =[^，X 2 , …，足]'。一个随机向量的期望 

(nXl) 

值就是其中元素的期望值组成的向量， 记做： 

E(x) = ^ ^ IECXO , E(X 2 ) ， … ， E(X„)T 


随机向量 


x 的方差一协方差矩阵定义与纯量方差类似，表达 式为: 


V(x) 


(i) 


EC(x — a )( 


H *)'] = 


(Tzi 


* 

* 

* 


On\ 


0\2 

… ty h 

2 

w 

m 

… o 2f 

* ■ 

蜃 _ 

* 

^ n 2 

* * 

2 

… A 


VOO 的对角元是变量 X 的方差，非对角元是其协方差。方 


差一协方差矩阵 V(x) 是一个对称半正定矩阵。两个随机向 
量 x 和 y 的协方差矩阵表 示为： 

(界 XI) (rtXl 〉 


C(x, y) = 


S v eE[(X—| 0(y—|iy) 




… 

* 

* 

a ^%yi 

* 

» 

… 

m 

* 

• 

• 

• 

… 



其包括了所有随机向量 X 和 Y 内所有元素的所有对协方差。 


随机变量的变换 


假设随机变量 y 是随机变量 x 的线性函数 a+6x( 其 
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中， a 、 6为常数)， X 的期望值和方差分别为和4，那么， 

E ( Y ) ~ ~ ^] ia - hhx ) p ( x ) 

X 

— a ^ pix ) + b ^] xp ( x ) 


= a + bjutx 

V(Y) =E[(Y-^) 2 ] = E{[(a + &X)-(a + ^ x )] 2 } 

= 6 2 E[(X-^) 2 ] 

现在，假设 Y 是两个随机变量 X , 和 X 2 的线性函数 
a x X x + a z X 2 ,不和 X 2 所对应的期望值分别为 a 、 p ，方差 

分别为4^，协方差 为此。 那么，我们 得到： 


E ( Y ) 






2_J Zj ( a l x l +CL z X 2 )p(Xi , x z ) 




，工 2) + XI ， ： C 2 ) 


Xj ^ 


Xj A 


= ai 2 X 1 夕 ( X 1 ) + “2 X ) 工2 〆 工 2 ) 

= d \ fx \ + a 2 / i 2 

V ( Y ) = E [( Y -^) 2 ] 

== E^iaiXi +a 2 x 2 ) — (a ! 妁 +a 2 ； u 2 )] 2 } 

= a \ E [_{ X ,-^ + a \ E \_{ X 2 —片 ） 2 ] 

+ 2a!a 2 E[(Xi — jx')(X 2 ― 和 ）] 

_ 2 2 I 2 2 t o 

=^1^1 十七巧十 ^^1 ^2^12 

* 

其中 ，足和 不是独立随机变量，因 此此 =0,那么，以上表 
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达式可简化为 V ( Y ) =44 + 。 

连续事件的规则与离散事件相同。例如，如果 Y =«+6 r 
是一个连续变量 X 的线性函数，那么 [33] ， 


ECY) 



ia^bac)pCx)dx 



poo 

p(x)dx +6 


xp{x)dx 


V — oo — oo 

= a + fiE ( X ) 


随机向置的变换 


将以上结论推广到随机向量中后，我们得到 :如果 y 

(■XI) 

是随机向量 x 的线性变换 A x ，随机向量 x 的期望值是 

(if£>00 (itXl) 

E ( x ) = , 方差一协方差矩阵为 V ( x ) = 2 xr » 则有： 


E ( y ) = |iy = A|ix 
V ( y ) =2^ = 

如果随机向量 x 的元两两独立，那么，所有的非对角元都为 
0, y 中每个元的方差可简单表 示为： 



有时，对于 y = /( X )， 我们需要知道的不仅是 E ( y ) 和 
V ( y )， 还有 y 的概率分布。而且，变换操作 /( •) 也有可能 
为非线性操作。假设 y 和 x 中的元素数目相等(均为72)、/ 
函数是可微的、/与 x 的范围内的值是 一一 对应的(每一个 x 
都对应一个唯一的 y )， 且最后一个属性暗示了该函数有反函 
数 x = 广 1 ( y ) 。 那么， y 的概率密度可表 示为： 
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/>( y ) = / >( x ) det (_) = />( x ) I det (|^) | 

其中， |detGx/ay)| 叫做“雅可比迭代”，它是 (nXn) 行列式 
的绝 对值： 

ft 

dXn 

办」 

I detOy /3 x ) | 的定义与 I detOx /3 y ) | 类似。 


det 


[3X x 
dYi 


m 


ax , 

Wn 


畢 




* 
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第2节 I 离散概率分布 


在本章节，我主要对一些重要的离散概率分布类进行详 
解，如二项分布与伯努利分布、多项分布、泊松分布(该分布可 
构建出近似二项分布)，还有负二项分布。我们所说的概率分 
布(例如，二项分布)其实是一个类，但为方便起见，我们只说 
二项分布。本章节的有关离散分布的内容和之后连续分布的 
内容均在统计推理和统计建模中扮演着非常重要的角色。 



前文提到的掷硬币实验引出了一个二项分布随机变量， 
该变量记录了一个硬币两次投掷后得到正面的次数。将此 
例引申后，我们让随机变量 X 记录一个硬币 n 次投掷后得到 
正面的次数。其中， 7 T 表示任意投掷得到正面的概率(不一定 
为 0. 5) ，1 _; r 则为得到反面的概率。 [34] 那么，观测到 x 个正 
面和《 _ 个反面的情况可用一个二项分布来 表示： 


p ( x ) = 71 n x a - n)^ x [3. 7] 



其中， x 是0到 n 的任意整数，因子 〆 （ l _; r )” i 是在特定情 
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1 

况下观测到: r 个正面和 n _ x 个反面的概率 。 ( n ) = n \/ 

[X! in — x ) !] 是二项系数，它是出现 z 个正面和 n 个反面 

的所有组合的数量。 [35] 

二项分布随机变量 X 的期望值为 E ( X ) = ri 7 n 方差为 
V ( X ) = wr(l — 7 T )。 图3_ 3展示了当 n = 10及 7 r = 0. 7时的 

二项分布。如果乘积项 WT 和 n(l — ; T ) 足够大(例如，都至少 
等于10)，那么离散二项分布可以近似看做连续正态分布，且 
其均值和标准差都与连续正态分布相同。 

P ⑻ 

0.25 

0,20 

0. 15 

0. 10 

0-05 

0.00 

0123456789 10 

x 

图 3. 3 it = 10及《 = 0. 7时的二项分布 

二项分布随机变量与伯努利随机变量不同，后者在取0 
和1的时候所对应的概率分别是 7 T 和 1—7 T ， 其均值和方差分 
别为 £( X ) = ； T ， V ( X ) = 7 T (1 —7 T )。 伯努利随机变量可以用 
来对一次投掷建模。例如，假设1为出现硬币的正面， 
x = o 为出现硬币的反面，那么，独立且同分布的伯努利变量 
的加和是一个二项分布。 

多项分布 



假设在 n 次重复独立的实验中，每一次实验的结果都岀 
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现在々个不同的结果类别中(对于该实验，总共会出现6种结 
果)。我们让随机 变量足 表示类别 i 中的结果数量，让 7 T , 表 

示每次实验的结果落入类别丨中的概率。那么，; S 4 ，= 1， 

9 • 1=1 

2: =1 足= W 。 

如果我们掷次骰子，让 X 记录出现1的次数， X 2 记录出 
现2的次数…… Xe 记录出现6的次数。因此，灸= 6仰表示掷 
出1的概率，咜表示掷出2的概率，等等❶如果骰子就是普通的 
骰子，即其各个面的数字不同，贝9有 TTl =江2 =…=咬=1/6 0 
推广到一般情况可知，如果向量随机变量 X ^ [ X ,, 
X 2 ，…，兄]'符合多项分布，则 有： 

n \ 

pKX) = p(Xi 9 X 2 f … ， X*) = x \ x ! •…工 ** # 7T? 

该公式的原理与二项分布公式相似，即 7 tf 7 C ? … Tlf 分别为在 
特定情况下，结果在类别1中出现的概率，结果在类别2中 
出现的概率，等等。 n !/ U ! x 2 \ …: T *!) 记录了不同组合的 
个数。如果 A = 2，那么， x 2 = 此时，多项分布即简化 

为二项分布(见方程 3. 7)。 

随机向量 x 中，元素的期望值为 ECXJ =吻 ，方差为 
V ( X ,) = (1— 叩），其对应的协方差为 C ( X , , Xj )=- rnr 而。 

泊松分布 

19世纪法国数学家西蒙-丹尼 • 泊松 （ Simoon-Denis 
Poisson ) 引入了以其名命名的一个近似二项分布。该近似在 
n 足够大、; r 足够小且其乘积 A 适中的情况下成立。泊 
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松分布的表达式为： 

p ( x ) = ^-(x = 0，1，2, 3，…且 A > 0) 

x \ 

尽管 X 所包含的均是非负整数，但由于 〆 : c ) 〜0,因此，该 

近似只有在: c 足够大的情况下才可行(这里， e 是一个数学常 
数 ， e 勿 2. 71828 ) 0 

泊松分布只用于极少见或不经常发生的现象。假设我 
们所观测到的过程所产生的事件比较特殊(如出生或者其他 
自发事件)，对于事件 X ，我们会记录下其在某个固定时间段 
发生的次数，如果该发生次数符合以下条件，则其遵循泊松 
分布: （1) 尽管事件发生的时间是随机的，但是在某个观测间 
隔下，其发生率是固定的。 （2) 如果我们将注意力放在一个充 
分小、间隔长度为 s 的子间隔内，那么，在该间隔内观测到一个 
事件的概率与其所在的间隔长度； U 成正比，在该间隔内观测 
到多于一个时间的概率几乎小到可以忽略。这样，参数 A 即 
事件的发生率。 （3) 在不重叠子区间发生的事件是独立事件。 

泊松随机变量的期望值是 £：( X ) = A ， 其方差 V ( X ) 也是 
A 。 图 3. 4描述了参数 A = 5 (有五个事件发生在观测的固定 
区间)时的泊松分布。 

P(X) 

0 . 15 

0,10 

0.05 

0.00 

012345678 9 10 11 12 13141516 

x 

图 3. 4参数为;1 = 5的泊松分布 
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负二项分布 

假设在掷硬币实验中，每次投掷都是独立的，并一直持 
续到一个目标数量，如出现5个正面后停止，此时，我们让随 
机变量 X 记录目标数量达到前，出现反面的次数。那么 ，X 
遵循一个负二项分布，其概率分布的表达 式为： 

/ >(x) = + = ^ W(1 — 7r) x (x = 0 ， 1 ， 2 ，.“） 

其中， TT 是每次掷硬币出现正面的概率，该负二项分布的期望 
值为 E ( X ) = s ( l -7 r )/7 r ， 方差为 V ( X ) = 5(1 —； r )/ 人图 3. 5 

表示当5=4及 7 T =0. 5时的负二项分布。 





X 


图 3.5 s = 4 及 ff =0.5 时的负二项分布 
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在本章节中，我会介绍一些重要的连续分布类型，如正 
态分布、卡方分布、 f 分布、 F 分布、多元正态分布、指数分布、 
逆高斯分布、7及#分布。 


正态分布 


正态分布(或高斯分布)随机变量 X 的概率密度函数为: 



a 


vZk 


exp 


ju) 


(—00<X<00) 


其中，分布参数 P 和/分别为 A ： 的均值和方差。因此，对于 
每个 p 和 ff 2 , 都有一个不同的正态分布。图 3. 6给我们列出 
了几个例子。正态分布常见的缩写形式为 X 〜 iV (； u ， a 2 ) ，它 


表示 X 是一 个以# 为均值、以/为方差的正态分布。「 3 «尽 
管法国数学家亚伯拉罕 • 棣莫弗 (Abraham de Moivre ) 已于 


1973年第一次引入了这个近似二项分布的概念，但是高斯分 
布仍是以伟大的德国数学家卡尔 • 弗里德里希 • 高斯 (Carl 
Friedrich Gauss ) 这一对正态分布有着重要贡献的数学家命 

名的。 
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-5 0 5 10 15 20 


图 3.6 正 态概幸 9 数: iV|0, l} 、 iV(5, 1) 和 iVUO, 9) 

单位正态分布（或者标准正态分布）的随机变量 Z 〜 
N (0, 1) 的密度函数在统计上有着非常重要的用途，其表达 
式为： 

\ _ exp(— 2 ^/ 2 ) (― oo < jz <； oo) 

该分布的累积分布函数如图 3. 7所示。任意正态分布 
随机变量 X 〜 N (；/， oO 都可以转化为标准形式[ 37 ] : 

Z 三^ 





z 


图 3. 7单位正态分布的累积分布函数 0 ( z ) 
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卡方分布 


如果乙， z 2 ，…， z „ 为独立的标准正态分布随机变量， 
那么， 

其遵循一个含有 n 个自由度的卡方分布，简写为;卡方随 
机变量的概率密度函 数为： 


p(x 2 ) 



( x 2 ) ( * r ~ 2)/2 exp (- x 2 /2) 


(x 2 ^ 0 ) 


其中， r ( •) 是一个 y 分布函数， 


r ( y ) E 


roo 



e^z u ~ l dz 


(通用参数 u >0) 


[3.8] 


它是连续阶乘函数的一般形式。特别是当〃等于一个非负 
整数时， y ! = r ( t ；+ i )， 我 们有： 



(晋_1)! ( n 为偶数） 

(I-l)(f-2) … (音 


( n 为奇数) 


卡方随机变量的期望值和方差分别为 ECX 2 ) = n 和 
7(：^)=2«。图3.8列出了一些卡方分布。如图所示，卡方 
分布是正偏的，但是随着自由度的增加，该分布变得越来越 
对称，即趋近正态分布。 

如果 X 2 l9 XU X \ 分别为自由度是〜，吻，…，叫的 

卡方随机变量，那么 X + X 〗+…+ X 〖遵循自由度为 
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n = rii + n 2 H - Vn k 的卡方分布。 



图 3.8 卡方密度函 数:乂、乂和 K 


学生 f 分布 


如果 Z 遵循标准正态分布，且 X 2 遵循；2个自由度的卡 
方分布，那么， 


2 

V 71 


这就是一个有 w 个自由度的学生£随机变量，简写为^ o [38] 
其概率密度函 数为： 



(― oo < 尤 < oo) 


[3. 9] 


该公式在 f = 0点中心对称，因此 E (0 - 0 o ⑽我们 可以发 
现，对于任意 n >2, VU ) = n /( n -2), 因此，对于自由度较 
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小的分布， r 的方差比较大，随着71的增加，方差越来越趋近1。 


p(o 



图 3. 9 £密度函数:6、办及*„=~(0,11 

图 3. 9描述了一些£分布图形。当自由度增加时， r 分布 
越来越趋近标准正态分布，直到1=以(0, 1)。当 n >30 时， 

<分布的方差就趋近于1, f 分布也就可以近似看做标准正态 
分布。 

学生 t 分布以20世纪英国都柏林吉尼斯啤酒厂的一名 
统计学家威廉 • 西利 • 戈塞特 (William Sealy Gossett ) 命名。 

戈塞特曾以“学生”为笔名在《生物计量学》杂志上发表了论 
文《平均数的规律误差》。这篇论文开创了小样本统计理论 
的先河。学生£分布对小样本统计推理的发展起到了举足轻 
重的作用。 


F 分布 

令¥和 X 〗分别代表自由度为叫和《 2 的卡方随机变 


量。那么， 


F = 


X\/ ni 
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它遵循自由度为％和《 2 的 F 分布，简写为 Fw F 分布是 
美国统计学家乔治 • W . 斯内德克 (Gemge W . Snedecor ) 为奖 

励其发现者——伟大的英国统计学家 R A * 费希尔爵士 (Sir 
R A * Fisher ) 而命名的。 

F 分布的概率密 度为： 



/ n v -< n ,+^)/2 

产 2)/2 (1 +炅 /) (/>0) 


[3.10] 


比较方程 3. 9和方程 3. 10可以发现，忒= F 1(B , 而且，随着 

n 2 变大, 、 越趋近于忒/叫，直到 F „, 如 = Z / w 。 

对于任意 n z >2 ,F 的期望值为 E ( F ) = ^/(71 2 -2), n 2 
的取值越大，其越趋近于1。对于《 2 > 4， 


V ( F ) 


2^(«! + n 2 — 2) 

rii («2 — 2) 2 (n 2 —4) 


图 3. 10描述了一些 F 概率密度函数。我们很容易发 
现， F 分布是正偏的。 
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多元疏分布 


一 个均值向量为 fi、 正定方差一协方差矩阵为 s 的多元 
正态分布随机向量 X = [不 ， X 2 ，…， XJ 的联合概率密度 
可表 示为： 


poo 


ilnY 2 ZdetL 


exp 


(x—jiyirUx—(i) 


通常，我们将其简化为 x 〜 NJfi，E)。 

如果 x 是多元正态分布随机向量,那么其包含的元素的 
边缘分布是单因素正态分布，记做X,•〜~(片，乂）。 [4()] 给定 
任意子集的向量，剰下变量的条件分布为〆& |x 2 ) ，其中 ，x= 
{x,, 馬}也是正态分布的。那么，如果 x-NJit， 》， 则有： 

y ^ Ax 

(mXl) (»iXjiKjiXI) 

秩为 rank(A) = m ^ n 的随机向量 x 的线性变换，那么， y 〜 

AEA^o 如果随机向量 x 的协方差矩阵 E 是奇异 
的，但是 x 的极大线性无关子集为多元正态分布，那么，我们 
就说随机向量 x 遵循奇异正态分布。 

有关 /A ~ 5» JUI2 — 6f (7i = 1,5 9 < T 2 = 2> pi 2 = 0. 5( 如 <7以 
=(0.5)(1. 5)(3) = 2.25) 的二元正态密度函数请见图 3. 11。 


指数分布 

指数分布是一系列以 A 为主参数的连续分布，它具有密 
度 函数： 
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注 :其中 ，密度函数的截面(表示给定其他变量的条件分布)在 A 和: c 2 方向 
上都是正态的， 

图 3. 11 /*! = 5, = 6, iFi = 1.5, Vi = 2, p !2 = 0*5 

的二元正态密度函数 


p{x) — Ae 


Cr> 0) 


X 的期望值和方差分别为 E ( X ) = 1/ A , V ( X ) = 1/ A 2 。图 3. 12 


描述了几个具有不同参数的指数分布。指数分布具有高度 
的正偏性，因此，当事件出现的“风险”在观测期中是一个常 
数时，它常被用于时间到事件数据的建模。 





图3,12关于不同参数; I 的指数分布 






第 3 章概率估计 


129 


逆高斯分布 

逆高斯分布是关于两个系数^和; I 的连续分布,它具有 
密度 函数： 

M = u>o) 

X 的期望值和方差分别为 £( X ) V ( X ) =；// A 。 图 3. 13 
描绘了几个逆高斯分布。逆高斯分布的方差随着其均值的 
增大而增大;偏度随着 p 的增大而增大，随着 A 的增大而 

•p 

减小。 

逆高斯矩阵和伽马分布（下面即将介绍）常用来对非负 
连续数据 建模。 

Pi :、 

LO 

0.8 

0.6 

0.4 

0,2 

0,0 

0 1 2 3 4 5 

X 

图 3. 13关于不同参数； I 和 / i 的逆离斯分布 

伽马分布 

伽马分布属于连续分布，它是具有尺度参数0> 0和形 
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状参数少> 0的概率密度 函数: 



^1 e 


xp ㈢ 

v ai 7 
o » r (乎） 


( x > 0) 


其中, r ( o 为伽马函数(见方程 3.8)。 伽马分布的期望值和 
方差分别为 E ( X ) V ( X ) = oiT 。 图 3. 14描述了在尺 

r 

度 w = 1下，不同形状参数少的伽马分布(改变尺度参数仅 
会使图像在水平轴上平移)。 



如果不， X 2 ，…， 不 是具有相同尺度参数0>、不 同形状 
参数妁，％，…，妁的独立伽马随机变量，那么 X 三足+ 
x 2 +…+不为具有尺度参数 w 和形状参数史=% % 

十…+见的伽马分布。 

含有 n 个自由度的卡方分布和具有尺度参数 w = 2及形 
状参数少=„/2的伽马分布是相等的。主参数为 A 的指数分 
布和具有尺度参数如= 1/ A 及形状参数乎=1的伽马分布是 
相等的。 
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贝塔分布 

贝塔分布是包含两个形状参数 a >0, p >0 的连续分 
布，它具有密度函数： 

pu)= ’hr ( ° <x<i) 

其中， B ( a ， 为贝塔函数。贝塔分布的期望值和方 

1 \an~p) 

差分别为 ECX ) = a/ia + fi ), V ( X ) = / , - ~ Q 因 

(a+pYia+13+1) 

此，期望值取决于参数的相对大小。如当 a = /3 时,£(；0 = 
0.5。偏态也同样取决于参数的相对值，且当 a = )8 时，分布是 
对称的。方差随的增大而减小。图 3. 15描述了几个贝 
塔分布。很明显，贝塔分布的变化很灵活。 


p(x) Pix) 




注 :在图 3. 15( a ) 中，很明显，当= ^3= 1时，贝塔分布退化为矩分布。 
图 3.15( a ) 为对称的贝塔分布，图 3.15( b ) 为反对称的贝塔分布。 

图 3. 15不同<*、/»组合的贝塔分布 
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第4节 | 渐近分布 理论: 初步介 a 


有时，因为很难确定统计估计量的小样本性质，所以研 
究一个估计量随着样本增大的表现就变得尤为重要。渐近 
分布理论就为这类研究提供了工具。在本章节，我仅对该理 
论进行概述，更完整的叙述可参考其他相关书籍。 

极限概率 


渐近分布理论常被应用于随机变量序列中。但是，我们 

有必要先考虑非随机无限序列{^， a 2 ，…，〜，…}。关于 

“非随机”，我指的是每一个 a n 而非随机变量是固定的。读者 
可能会注意到，如果对于任意无限小的数 e ， 总是存在一个正 
数 n ( e ) ，对于所有的 n > n ( e ) ^\ a n ~ a \ < € ,那么我们称该 

数列存在极限 a 。 换句话说，只要 n 足够大 ， a n 就可以任意地 
接近 a 。 n ( e ) 强调了《值取决于我们所选择的标准 e (请参见 
前文有关函数极限的定义）。为了使表述更简洁，我们可以 
用表达式 \ ima n — a Q 例如，若= l + 1/ n ， 那么 lima rt = 1。 

图 3. 16描述了该数列及其极限。 
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1 + \/n 



图 3. 16 具有极限 a = 1 的序列 A. = 1 + 1/» 的前 20 个值 

我们现在考虑随机变量序列{足， X 2 ，…， X n , …}。在 
应用统计中， X 为估计量， n 为该估计量的样本大小。让 
A ePr ( | X | <幻，其中 a 是一个常数，5是一个很小的 
整数。我们可以把 A 想象成 X n 逐渐接近 a 的概率。假设 

非随机概率序列{负，/> 2 ,…，/>„，…}以1为极限 [41] ，即 
lim Pr ( I X n - a \< d ) =1。那么随着 n 的增大，随机变量兄 

将在 a 的小范围区域内更接近 a ，图 3. 17描述了此情形。如 
果无论5多么小，该结果都成立，那么我们说 a 是尤„的概率 

极限，表示为 plimX „ = a 0 为方便起见，我们可以把《去掉, 
记作 plimX == a e 



注 :随着 n 的增大 ，兄 将越来越接近 a 。 

图 3. 17 plimXn = a 
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概率极限具有如下重要性质:假如 plimX = £1，且 Y = 
/( X )为 X 的连续函数，那么 ， plimY = / U )。 同样，如果 
plimX = a , plimy =6, Z = /( X , Y ) 为 X 和 Y 的连续函 
数，那么 Z = / U ， 6)。 

渐近期望均值和方差 


回到随机变量序列{足， X 2 , …， X ，〜}，并令//„为；^ 


的期望值。那么，{片，片，…，化，… } 为一个非随机序列。 
如果该序列趋近于一个极限； U ， 那么我们说 P 为 X 的渐近期 


望值，记做 e ( x ) 


o 


尽管我们会很自然地把渐近方差的定义序列与方差的 
极限进行类比，但是该定义无法让人满意，因为在许多情况 
下(下面将举例说明）， limV ( X fl ) =0 o 假设我们计算一个从 

均值为//、方差为/的总体中抽取的(大小为 n ) 样本均值，将 
其记做由初等统计学可知， E ( X „) = 另外， 


V ( X „)== E [( X n - ju ) z ] = 


因此， limV ( X n ) = 0 , 把 W 加入中括号内，有 £{[ W ( 元一 

ir^-oo 

^)] 2 } =/，将其除以 n 然后取极限即可得到我们想要的结 
果，此时样本均值的渐近方 差为： 

y ( 又)三 lim 丄£： { [^(元 - 户) ] 2 } 

fi，op 71 

= —e{CVn(X B — 户 )] 2 } 

n 
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该结果没有什么特别之处，因为 V (又）= u ( X ) 0 事实上，这 
与一开始给出的渐近方差的定义是等价的。在实际应用中， 

当有限样本方差不可求时，还是有可能找到渐近方差的。此 
时，我们可以将渐近结果当做大样本的近似。 

通常，如果的期望值为那么， X 的渐近方差定 

义为 [42] : 

y ( X )^4{[^( X B -^)] 2 } [3.11] 

渐近分布 

让{巧， P 2 , …，巧，… } 代表随机变量序列{及， x 2 , …， 

X B , … } 的累积分布函数。假如对于随机变量的所有 值工和 
任意无论多小的数 £， 我们总能找到一个足够大的数 n ( e )， 那 
么，对于所有的 《> n ( e )， 都有 I P n ( x )- P ( x ) l < e ; 那么， 

我们说 X 的累积分布函数收敛于渐近分布 P 。 

中心极限定理描述了当一组独立同分布，且具有有限的 
期望值和方差的随机变量的均值遵循近似正态分布时，该近 
似过程会随着随机变量数目的增加而加强。例如，有一个样 
本大小为 n 、 主参数为 A ，且高度偏斜的指数分布，其均值"和 
方差7都为1。我们知道，指数分布是伽马分布的一个特 
例，其形状参数乎=1，尺度参数 1/ A ， 那么，样本的和 

D n ，足（即 7^) 是形状参数乎=/ I 、尺度参数 w = 1的伽马 

* ■ 1=^1 

分布。图 3. 18描述了从指数分布总体得到的样本均值又的 
抽样分布密度函数随样本量大小的变化，且每一种情况都比 
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较了又的真实伽马样本分布与近似正态分布 iv ( l ， 1 / n )， 正 
态近似随样本量的增加而越发精确(而叉的抽样分布的方差 
随之减小)。 


PCX) U)n=l 





P(X) (c)n=5 



X 



-2 0 2 4 

X 



-2 0 


2 4 



X 


注:图 3.18(a)，《 = 1 所对应的； C 的总体分布 . 在每一张图中，实线为真实 
(伽马)抽样分布X的密度函数，虚线为正态近似 N(l, 1/«)的密度 
函数。 


图 3. 18中心极限定 理:从 指数分布总体(主参数为 A = 1 ) 
得到的(样本置《的大小不同)样本均值 f 的抽样分布 


随机向量与随机矩阵 


我们将以上结果扩展到向量和矩阵中，得 到：当 plim 足 
= ai(i = l 9 … ， m) 时， plim x = a 。 plim X = A 意 

(mXl) CiTiXl) (mXp) imKp) 
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味着，对于所有的纟和^， plimX^ = %。随机向量 x 的近似 

(mXl) 

期望值定义为由其中元素的近似期望值组成的向量，即 = 
e ( x ) 三[ £ (足 ） ， e(X 2 ) ，…， e(XJT 0 x 的渐近方差一协方差 
矩阵定义为： 


y(x) = { Wn(^n — fO ] — 卜 )]'} 
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第5节 | 统计估计置的厲性 [43] 



一个样本统计量 （ 即一个有关样本中众多观测的函数) 
的估计量是用来估计总体参数的。由于其数值因样本不同 
而异，因此，估计量是一个随机变量。估计是特定样本估计 
量的数值。估计量的概率分布称为“抽样分布”，该分布所对 
应的方差称为估计量的“抽样方差”。 

偏差 

如果 E ( A ) = a , 那么我们说参数 a 的估计量 A 是无偏 
的。因此， f ：( A )— «即焱的偏差。 

假设我们从均值为^方 差为/ 的总体中得到 n 个观测 
又 ，那么，我们说样本均值又三 h / nlp 的无偏估计量， 
同时， 


SI 



[3.12] 


丈是7的有偏估计量，因为 E ( Sl ) = [( n — l )/ nV ， Si 的 

偏差因此等于一 a 2 / n 。 有关抽样分布的无偏及有偏估计量， 
请见图 3. 19。 
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图 3. 19因为 £( 木 ）=0, 所以估计置木是 it 的无偏估计量; 

因为 £( A 2 ) > o , 因此估计 It ▲ 是正偏的 


渐近偏差 

参数 a 的估计量 A 的渐近偏差是 e ( A )- 心那么，如果 
e ( A ) =<2，则估计量 A 是无偏的。由于当时， 

因此， S 2 . 是渐近无偏的。 


均方误差与有效性 

一个估计量是无偏的意味着，其重复样本的平均数值和 
总体估计参数相同。很明显，该特征应该是估计量最理想的 
性质。但是，如果样本估计量和总体估计参数不接近的话， 
那么，该估计量则是无用的。对于期望值 ，一 些样本的较大 
的负估计误差可以抵消其他样本的较大的正估计误差。 

参数《的估计量的均方误差 ( MSE ) 是估计量与参数之 
间的差异平方的均值，即 MSE ( A ) eE [( A — a ) 2 ]。 估计量的 

有效性与其均方误差成反比。通常，我们比较倾向于有效的 
估计量。 

由于 E ( A ) = a ， 因此，一个无偏估计量的均方误差，简 
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单地说，就是其抽样方差。而对于一个有偏估计量， 

MES ( A ) = E [( A - a ) 2 ] = E {[ A - E ( A ) + E ( A ) - a J } 

= E {[ A - E ( A )] 2 } + [ E ( A ) - a ] 2 + 2[ E ( A ) 
— £ XA )][£ XA ) — a ] 

= V(A) + lbias(A)2 2 + 0 

r 

当一个估计量的有效性增加时，其抽样方差及偏差会减小。 
那么，比较两个估计量抽样方差上的优势可以更多地补偿其 
偏差劣势，如图 3. 20所示。 



注:尽管估计量八 2 是有偏的，但是 A 2 相对于无偏估计量 A ，是参数 a 的一 
个更有效的估计量，其原因在于 ， A 2 的小方差性可以部分补偿其偏差性。 

围丄20估计置的相对有效性 


渐近有效性 


渐近有效性与渐近均方误差 ( AMSE ) 成反比，且渐近均 
方误差是渐近方差和渐近偏差平方的和。 

一致性 


如果 plimA = a, 那么参数 a 的估计量 A 是一致的。 一 
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致性的充分(非必要)条件是估计量本身是渐近无偏的，且抽 
样方差随着《的增加趋近于0。该条件暗示了估计量的均方 
误差的极限为0。图 3. 17描述了 a 的估计量 X 的一致性。 
方程 3. 12表示，估计量义是总体方差/的一致估计量，尽 
管在有限样本中，它本身存在偏差。 

充分性 

充分性的概念比无偏、有效及一致更抽象 :如果 在样本 
中，统计量详尽地表达了参数《的所有信息，那么，基于观测 
值的统计量 S 符合充分性条件，或者可以说，假设观测值 
XpX 2 , •”， 是从以《为参数的概率分布中得来的。我们 
让统计量5 = /(足， X 2 , …， X )，如果观测值的概率分布 
是以 S 的数值为条件的，也就是说 pixy ，心 ，…， xj S = d 
与《无关，那么 S 即一个《的充分统计量。注意，充分统计量 
S 不是参数《的估计量。 

要描述充分性，我们可以假设《个观测都是独立采样得 
来的，对于每个观测，足为1的概率为 7 T ， 为0的概率为 1 — 7 T 。 
即 ，兄 是独立同分布的伯努利随机变量。在这里，我会证明 

样本总和足是; T 的充分统计量。如果我们已知 S 
的值 h 则对于 S 的不同种组合 （s = 0 ; 5-1) ，数目为(^), 

且每种组合的可能性为 1 / 我们知道，随机变量 S 遵循 

一个二项分布，由于其概率与 7 T 无关，因此，统计量 S 是; r 的 
充分统计量。同理，样本比例 P = S / n 也是一个充分统计 

量。样本比例 P (而不是总和 S ) 是; r 的估计量。 
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充分性的概率可以延伸到一组参数和统计 量上: 已知一 
个样本(可能为多元)中的观测为&， x 2 , …， x „ ，如果观测的 
条件分布决定了 S 与 tt 无关，那么，向量统计量 S = [ S , , 
S ” •••， S P J = /(& ， x 2 ，…， x „) 是参数 tt == [ ai ， a 2 ，…， 

的联合充分统计量。例如，独立随机变量的均值又和 S 2 
分别是正态分布参数//和^的联合充分统计量(因为样本总 

和 Sx , 与平方和 Hx 〖所包含的信息与文和 s 2 相同）。 

如果没有更小的充分统计量组，那么，该组充分统计量则是 
最低充分统计 量组。 


稳健性 


当一个估计量的有效性(及其相对其他估计量的有效 
性)不极大地依赖于数据分布时，那么我们说该估计量是稳 
健的。 

还有另一种稳健性，称为“效度稳健性”，我们要将它与 
有效稳健性相区分。对于统计推理过程，如果其效度不极大 
地依赖于数据分布，那么，我们说它是稳健的。因此，即使检 
验违反了分布假设(如正态分布假设)，稳健性假设检验的 P 
值仍可看做是近似准确的。同样，如果置信区间的覆盖率与 
之前所陈述的相同(例如，一个 95% 置信区间覆盖了差不多 
95%的样本)，即使有时会违反分布假设，但我们仍说该置信 
区间是稳健的。当一个检验或者置信区间是基于一个无效 
估计量时，如果检验的统计功效很低，或者置信区间很宽，那 
么，该检验或者置信区间的效度稳健性就很低。 

要具体描述有效稳健性，我们就要把重点放在估计一个 
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对称分布的 中心# 上》 [44] 只要 x 存在有限方差/，那么，样 
本均值 X 的方差为 V ( X ) = ¥ Az ， 这里的 n 是样本量(与基 
本统计的结果一致)，且样本中位数的方差与 X 的分布有关: 

VXmedian ) . r ~~ ^iz 

4«[Kr 0 . 5 )] 2 

其 中， 〆 As ) 为 X 为总体中位数时的密度。 

运用到正态分布的总体上则有 X 〜 N (；/， /)，中位数方 
差为 VXmedian ) = m z / Zn 9 因此，样本均值相对于中位数是 
一个相对有效的统 计量： 


V ( median ) = 取 2 /2 n = ^ i 57 

V ( X ) a 2 In 2 〜* 

为了保证准确性，用样本中位数来估计//所用的样本量是用 
样本均值进行估计时的 1. 57倍。 

相反，假设 X 服从自由度为3的 r 分布，该分布相对于 
正态分布，尾部较重且较长。那么，/ = 3/(3 — 2) =3, p Wi 、 
— p (0) — 0. 3675,因此， 

vex) = — 


V ( median ) = 


4 n (0. 36 75 2 ) 


1.851 


对于此例，均值只有 1. 851/3 = 0. 617(62%)。因此，在这里， 
均值与中位数一样有效。 

稳健性对于异常数据具有耐抗性，一个耐抗估计量不会 
被小部分的异常数据所影响。均值对异常值的耐抗性比较 
小，这点很容易证 明:从 一个标准正态分布中抽取一个含有 
六个观测的样本，如下 所示： 
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X ' =- 0. 068 X 2 =- 1. 282 X 3 = 0. 013 

X 4 = 0. 141 X 5 -=-0. 980 X 6 = 1. 263 [3.13] 

这些值的均值为又 =一0. 152。如果我们想加入第七个观测， 
即石，它可取从_10到 + 10( 或者范围更广一些，例如，从 
一 CO 到 + OC ) 的一切可能数值。该结果称为均值的“影响函 
数”，如图 3. 21( a ) 所示。很明显，随着 X 7 的取值趋向于极 
值，样本均值也不断增大。 


x 



median (X) 


0.00 


- 0, 02 


- 0,04 


- 0,06 



一 10 一 5 


(b) 




10 


注:中 位数对函数的影响是有界的，但均值却不是。注意，两张图纵坐标的 
刻度不同。 

图 3.21 样本均值 ( a ) 和中位数 ( b ) 的影 flfi 函数及 =-0.068, X 2 =—1.282, 


X z = 0. 013, X 4 = 0. 141, X s 


0.980, X 6 = 1.263 


与估计耐抗性相关的一个概念称为估计值的“崩溃点”。 
崩溃点是估计值可以耐受而不会被任意异常大的值所影响 
的“坏”数据部分。均值的崩溃点是0,因为正如我们所看到 
的，一个不好的观测可以任意地改变均值的大小。相反，中 
位数的崩溃点为50%，原因在于，即使有一半的数据是“坏” 
的，中位数也不会被完全影响。 


M 估计 


用均值将最小二乘目标函数最小化后得到: 
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^tPlS^Xi — ft ) = 2 ( 足 一 A ” 

i— 1 i=l 

该均值影响函数的形状为目标函数对残差求导 
的 结果： 


^Ls(J?) 三 ^>ls(E) = 2£J 


影响函数因此和£成正比。那么，将最小二乘目标函数重新 
定义为 ^ ( E ) = 会更加方便，这样的话， 如 ( E )= E 。 

现在考虑样本中位数是 y 的估计值的情况。中位数最 
小化了最小绝对值 ( LAV ) 的目标 函数： 




n 


S I 足一 


y \ 


结果我们发现，中位数对异常值的耐抗性比均值强得多。有 
关中位数的影响函数请参见图 3. 21( b )。 与均值相反，中位 
数在观测差异上的影响是有界的。之前提到过，目标函数的 
导数决定了影响函数的形状 [45] : 


'1 ( E >0) 

tPuw (E) = = < 0 (E= 0) 

、一 1 (,E <C 0) 

尽管中位数对异常值的耐抗性比均值更强，但是，如果 
X 为正态分布，中位数就不如均值有效。因为其他目标函数 
与对异常值的耐抗性加在一起，其有效稳健性就大大提高 

To 我们将可以最小化目标函数瓦）的估计值称为 
“ M 估计 量”。 [ 46 ] 

两个常见的 M 估计量是 Huber 估计量和双权或者双平 
方估计量。 Huber 估计量是以发现 M 估计量的彼得 • J •胡 
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伯尔 (Peter J. Huber ) 命 名的; 双权估计是由约翰 • w. 杜克 
(John W . Tukey ) -个为统计学作出了重大贡献(其中 

包括稳健估计)的著名美国统计学家发明的。 

Huber 估计量是最小二乘与最小绝对值之间的权衡，其 

数据的中心靠近最小二乘,而尾部与最小绝对值相似。 

f (I E|<« 

pH^E) 三 m 

k \E\-jk 2 (I E\>k) 

图 3. 22 描述了 Huber 目标函数~、冲的导数和影响函 
数 ‘ [47] 

^( E ) ^ h ( E ) 

1.0 

0.5 

0.0 

-0*5 

-L0 

-3 — 2 -1 0 1 2 3 

E 

(b) 

注:要 校准这两张图，细调常数需设置为 a = 1 (请见文中有关细调常数的 
讨论)。 

图 3. 22 Huber 目标函数卿 ㈤ 和彩响函数抑 ( b ) 

f k (E>k) 

0 h (E) =<E (I E |<« 

、一 k CE <1 — k) 

在这里，定义分布中心及尾部的 々值 称为“细调常数”。我们 
常常把细调常数表达成多尺度变量 X ( 如展宽），即取 A = cS ， 




E 

(a) 
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其中， S 是尺度的量度。样本标准差是一个不太好的尺度量 
度，因为它被异常值影响的程度比均值大。常见的尺度稳健 
量度是中位数绝对偏差 (MAD) : 

MAD = median | X , — jl 

最初，我们用变量 X 的中位数作为 A 估计，然后我们定义 
S = MAD/0.6745, 其保证了当总体分布为正态分布时 ,S 
是标准差 a 的估计。用* = 1.345S (如 1.345/0. 6745 〜 
2MADs), 相对于样本均值,在总体为正态分布时，加上总体 
为非正态分布时其对异常值所产生的耐抗性的情况下，它可 
以产生 95% 的有效性。一个细调常数越小，其产生的耐抗性 
越大。 

双权目标函数达到平衡或者说变平后的残差非 
常大 [48] : 




1 - 


E 

~k 




(I E |<« 


E \> k ) 


因此，双权估计量的影响函数可以再降到0,从而完全地扣除 
充分异常情况的 影响： 


f 




“(E) = 入 


E 




-(f 


0 


(I E |<« 


E \> k ) 


图 3.23 描述了有关細和^的函数。在样本呈正态分布 
时，用々=4_ 685 S (如 4. 685/0. 6745&7 MADs ) 可以产生95% 

的有效性。 
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(a) 


^b*C£) 



( b ) 


注:要 校准这些图形，细调常数需设定为 A = 1。当 | E | 很大时，影响函数“降” 
为 O . 


3.23 双权目 标函数 和“影«函数”^{10 


当 MAD 用于估计尺度时, Huber 和双权估计值均可实现崩 
溃点为50%。 

计算 M 估计值通常需要用到迭代(尽管对于均值和中 
位数，迭代并不是必须的，然而正如我们所见，其与 M 估计 
的框架相适应)。 A 的估计方程式把目标函数的差异设置为 
0 ,因 此有： 

=0 [3. 14] 

i = l 

方程 3. 14有许多解法，其中最直接、最简单的要数用迭 
代法对均值再加权，其过 程为： 

首先，定义权方程 a >( E ) = i / j ( E )/ E ， 那么，估计方程 

变为： 


其中， 


[3. 15] 

i^l 

Ct>i = CoCXi _ fX ) 


方程 3. 15的解是加权后的均值，为: 
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加权函数对应的最小二乘、 LAV 、 Huber 以及双权目标函数 
请参见表 3. 1和图 3. 24。最小二乘权函数对每个观测都加 
了权，同时，双权对充分异常的数值賦予0值, LAV 和 Huber 
不断趋近于0却无法达到 L 

表 3.1 —些 M 估计置的权重函数 


目标函数 〆 £) 权重函数 o >( E ) 


最小二乘 

1 

■ 

L 

最小绝对值 

1/1 E | ( E ^ O ) 

Huber 

1 < E <*) 


k /\ E \ ( E > k ) 

双权 


[-(f)7 


(I E|<A) 


0 CE > k ) 


其次，选择的初始估计，如 X 取值的中位数。 EM 用 
； ^计算尺度^ 的初始估计和初始权重 of = UX 卜一 
^ (0> ) o 同时，设置迭代计数初始值 Z = 0。尺度所需的细调常 
数为々 = CS (之前已经指定过 ch 

最后，对于每个迭代计数/，计算 z / 

当从一个迭代到另一个迭代的 p (/) 可忽略不计 
时，计算停止。 

描述有关估计量的应用，我们首先要回顾一下之前所提 
到的从标准正态分布 N (0, 1) 得来的含有六个观测值的样本 
(请见方程 3. 13)，我们先在该样本中制造一个异常值 
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W LS(£) w uvv(£) 



—3 —2 — 1 0 12 3 —2 —1 0 12 

E E 

(c) (d) 


注 :对于 Huber 和双权估计值，细调常数设定为 A = 1。注意， LAV 估计量的 
纵坐标和 Huber 估计量的横坐标与其他图不同。 

图 3. 24 ( a ) 最小二乘； （ b ) 最小绝对值; （ c ) Hnber ; 

( d ) 双权估计置的权函数 <»(£> 

X 7 = 10。用 Huber 估计量 c = 1. 345和双权估计量 c = 4. 
685, 得到： 

X = 1. 298, median ( X ) = 0. 013 ， ft H = 0. 201, 

=—0.161 

很明显，样本均值已经被异常值所影响，但是其他估计量却 
没有。 
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第6节 I 最大似然估计 


最大似然估计方法所提供的估计量是一个合理而直观 
的基础，它同时含有众多我们所期望的统计属性。该方法应 
用广泛且简单易行。再则，运用最大似然估计量 ，一 般性理 
论所提供的相应的标准误和统计检验等都是有用的统计推 
论。然而该方法的劣势在于，它往往需要对数据结构作出较 
强的假定。 

似然函数不仅在经典统计推论中扮演着至关重要的角 
色，还在贝叶斯推断中起着举足轻重的作用。 


一 个例子 

让我们考虑一个简单的例子 :假设 我们要估计掷硬币得 
到正面的概率 7 T 。 我们投掷10次(例如，我们取10次掷硬币 
的结果 ， n = 10 ), 得到的结 果为： 那 
么，得到这个结果的概率是未知参数的 函数： 

Pr (数据丨参数 ）= PriHHTHHHTTHH \ n ) 


= 7 i7r(l — TtOronrCl — tt ) (1 — 7 z)m 
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对于10个独立的伯努利随机变量，得到该结果的概率就是 
每次得到正面或者反面的概率乘积(如果得到的是正面，那 
么，足 = 1， 反之足 = Of i = 1*“10)。 

. 对于我们的样本，其数据是固定的，因为我们之前已经 
收集好了。参数; r 也有一个固定值，但是这个值是未知的， 
因此我们让其落在我们所想象的0到1的区间内，把观测到 
数据的概率看做; r 的函数。该函数为“似然函 数”： 

L (数据 | 参数）= L(k I HHTHHHTTHH ) 

= 7T 7 (1 _ kY 

概率函数和似然函数的公式相同，但是概率函数是参数固定 
的数据函数，而似然函数是数据固定的参数函数。 

下表是一些具有代表性的似然值所对应的 7 T 值。 


LU 丨数据 ）= TT 7 ( l -7 r ) 3 


0.0 
0.1 
0.2 
0,3 
0.4 
0_ 5 
0.6 
0.7 
0 _ 8 
0, 9 
1.0 


0_0 

0. 0000000729 
0. 00000655 
0. 0000750 
0. 000354 
0, 000977 
0. 00179 

a 00222 
a 00168 

0_ 000478 
0,0 


图 3. 25为总似然函数。尽管每个 LGrl 数据)的值都是 
一个概念上的概率，但是 LG | 数据）函数既不是一个概率分 
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布，也不是一个密度函数，因为其总和并不为1。 



图 3.2 S 似然函数 (1 — ? r ) 3 

对于此例，不论 7 T 的真实值有多大，我们已有数据样本 
(/ ff / TTffffnTHH ) 的概率很小。除非样本很小，否则通 

常任何指定的样本结果(包括我们已知的 ) 在收集数据前得 
到的概率都是很小的。 

尽管如此，似然函数包含了有关未知参数; r 的重要信 
息。例如， 7 T 不可能等于0或者1，因为如果它为其中任意一 
个值，那么，我们的观测数据(包括得到硬币的正反面)就不 
可能得到。反之， 7 T 值总是由数据决定，它总可以使似然函数 
最大化，因此，该值称为“最大似然估计” ( MLE )， 记做 G 。 在 
这里，？ = 0 . 7，即得到硬币正面在样本中的比例。 

将例子推广化 


更普遍的情况是，我们掷硬币《次，那么得到0：个正面 
和个反面的概 率为： 

LCtt I 数据）= Pr (数据 I TT ) = 71^(1 

我们想得到一个 tt ， 使 L0r| 数据)最大。对于此例，还有一个 
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更简单而且等价的方法，即找到一个 7 T 值，使似然函数的对 
数最大化，这样，我 们有： 


loge L (7 t ) = xloge 7T+ (n — x ) loge (1 — 7T) [3. 16] 

log^L ( TT ) 对 7 T 求导得： 

— g ^ L (?r) = —+ (w-x) r ^(-l) 
an Jr 1 — k 

_ — n —— x 

It 1 _ K 

对数似然函数对参数求导后所得的函数称为“记分”(或者 
“记分函数”)。将记分设置为0求解 tt , 可以得到 MLE ， 解方 
程后我们发现， MLE 即样本比例 x / n (读者可以自己证明）， 
最大似然估计量是 S = X / n 0 要避免最后阶段对估计量的替 
换，我们可以在对数似然函数中用： c 代替 X ( 如方程3.16)。 


.最大似然估计量 

最大似然估计量的性质 如下： 

(1) 最大似然估计量是一致的。 

(2) 最大似然估计量是渐近无偏的，尽管在有限样本里 
它可能有偏。 

(3) 最大似然估计量是渐近有效的——渐近无偏估计量 
的渐近方差较大。 

(4) 最大似然估计量是正态分布的。 

(5) 如果一个参数含有充分统计量，那么，该参数的最大 
似然估计量是其充分统计量的函数。 

(6) 如果 f 是^的 MLE ， 且召=/(«)是《的函数，那么， 
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$ =/( S ) 是存的 MLE 。 

(7) 参数 a 的 MLES 的渐近抽样方差可以从对数似然 
函数的二阶导数中 求得： 




1_ 

~ (flog, LiaV 

- da 2 - 


[3. 17] 


eXS ) 的分母称为“期望信息”或者 “Fisher 信息” [51] : 


Ha) = — E 


cflo^Ua) 

~ d ? 


我们将 MLES 代入方程 3. 17,可以得到渐近抽样方差的估 
计以：)。[ 52 ] 

(8) LO 是似然函数在 MLE ^ 上的值，此时， L ( a ) 对于 
真(但往往是未知的)参数《是一个似然函数。那么，其对数 
似然比率统计量 

G 2 三2 log , = 2[ log f L (^)- lo & L ( a )] 


遵循自由度为1的渐近卡方分布。因为通过定义， MLE 在 
我们特定的样本中最大化了似然函数，那么，在真参数值 a 
下的似然函数值通常比在 MLES 下的小(除非《和碰巧 
相等)。 

如何构建这些结果超出了本章的范围，然而这些结果 
的确可以给我们带来一些直观的感觉。例如，如果对数似 
然函数有一个尖锐峰，那么很明显， MLE 是由其临近值求 
导得来的。在这种情况下，其二阶导数是一个较大的负数。 
我们可以发现，数据里隐藏了许多有关参数值的“信息”, 
MLE 的抽样方差比较小，等等。相反，如果对数似然函数 
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在其最大值上表现得比较平坦，那么，与 MLE 差异很大的 
可替换估计可能和 MLE —样好用。这样的话，数据中就很 
难发现有关参数值的“信息”，同时， MLE 的抽样方差也很 
大(见图 3. 26)。 



注:一 个为尖锐峰，提供可信度高的参数 a 信息;另一个为平坦峰，提供的参 

9 

数 a 信息可信度低。 

图 3. 26两个对数似然函数 


统计推论: Wald 检验、似然率检验与记分检验 


前面介绍的有关最大似然估计量的属性，直接引出了 
用来检验假设 H 0：a = ao 的三个常用统 计量: Wald 检验、似 

然率检验和记分检验。记分检验有时称为“拉格朗日乘数 
检验”。 Wald 检验和似然率检验可以用来产生《的置信 
区间。 

(1) Wald 检验 :根据 MLES 的渐近正态性，我们可以计 
算检验统计量 
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它在 H 。 下是以 N (0, 1) 渐近分布的。 

(2) 似然率检验 :运用 对数似然率后，检验统计量 变为： 

= 210 & TT^T = 2 [ 10 & L(a ) — log e L ( a 0 )] 

它在 h 。 下是以; d 渐近分布的。 

(3) 记分检 验:我 们知道 S ( a )= rflo & L ( a )/^ 是对数似 

■ 

然函数在《时的斜率。在 MLE 时，记分为0:5(^) = 0。那 
么，记分统计量的表达 式为： 

e = S ( a 0 ) 

0= yiui 


它在 ff Q 下是以 N (0, 1) 渐近分布的。 

尽管这三个检验是渐近等价的，但是除非对数似然函数 
是二次型的，否则三个检验统计量对同一个指定样本所得到 
的结果会有些许不同。在特定情况下，记分检验的实际优势 
在于，其不需要计算 MLES (因为 S D 只依赖于空值 ct 。， 它已 
经由 H 。 指定)。在大多数小样本量的情况下，似然率检验比 


Wald 检验和记分检验更可靠。 

图 3. 27描述了三种检验之间的关系，并阐明了每个检 
验的理性直觉。 Wald 检验度量了 f 与 a 。 之间的距离，并用 
标准误校准了该距离。如果 S 离 a 0 较远，那么我们可能要 
质疑一下 H 。。 似然率检验度量了 lo & L(f ) 与 l 0 ge L ( a 。） 之 
间的距离，如果 lo & L ( ^ ) 比1观 L U ) 大得多，那么风可能 
出错了。记分检验的统计量度量了对数似然函数在的时的 
斜率，如果该斜率很陡，那么，可能离似然函数的峰值较远， 
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此时，我们仍然要质疑 H 。。 


似然率检验 



注: 似然率检整将 lo & UG 与 lo & LU) 比较; Wald 检验将 f 与 & 比较; 
记分检验检验 a = a Q 时 lo & L (a) 的斜率。 

图 3. 27假设检验 H ,: a=Oo 


相关说明 

现在我们要把这些结果运用到之前的例子中，即在 n 次 
掷硬币中得到正面的概率 7 T 。 之前提到，; r 的 MLE 就是样本 
比例 f = X / n ， 其中， X 记录了样本中出现正面的次数，对数 
似然函数的二阶求导(方程 3. 16) 为： 


djr 2 


X 

~2 

7 Z 


n — X 

(1 — 7C) 


2 


(- 1 ) 


— X + 2tcK — m 


2 


n (1 — 7r) 


2 


注意， E ( X ) = tm , 那么期望信息为 


IU )= 


tm ~h 2ygr 2 — rot 2 

_ 7T Z (1 — 7r) 2 


n 

7r(l 一 7t) 


? r 的渐近方差为 = [ Ktt)]— 1 = 7 r ( l — 7 r )/ n ， 与期望信息 

相似。对于此例，渐近方差恰好就是&的有限样本方差，其 






第 3 章 讓享估计 


159 


估计渐近抽样方差是 = K ( l - K )/ n 0 

在我们的样本中，掷硬币次数 n = 10,得到7次正面的 
渐近抽样方差为 vin ) = (0.7X0. 3)/10 = 0.0210,根据 
Wald 检验 ,；r 的95%渐近置信区 间为： 

tt = 0.7±1.96X /0. 02010 = 0.7 ±0.284 

其中，在双尾检验中， 1. 96为右侧尾部概率是 0. 025的标准 

正态分布值。我们还可以用 Wald 检验统计量来计算。假设 
H 0 ：tt = 0. 5， 


Z 0 = 


0. 7 — 0. 5 
70. 02010 


= 1. 38 


其所对应的 N(0, 1) 双尾/>值为0.168。 


我们知道，对数似然函数为: 


loge Lire) = Xlog e K+ (n —X)Iog f (l —tt) 

= 71oge n + 31。& (1 — jt) 

代人具体数值后， 得到： 

logeLCJr) = 71ogpL(0. 7) + 3 I 0 &L(0. 3) = ― 6.1086 
lo^LC^o) = 710^ L(0. 5) +3log e L(0. 5) = — 6.9315 

因此， H。 的似然率检验统计 量为： 

Gl = 2[— 6,1086 - (- 6. 9315)] = 1. 646 


其所对应的夕值(从; d 分布得到)为 0. 199。 
最后，对于记分检验， 

c 、 dlo^Lirc) X n — X 

bKK ) = -1- =- -z - 

COT K 1 — 7 T 
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那么， 


SU) 


0.5 0,5 


其在; r 。 时的期望信息为 


Kkq) = 1(0. 5) 


10 


0. 5 X 0* 5 


40 


因此记分统计 量为: 


S 




/Ktto) 


%/40 


1.265 


其对应的 N (0, 1) 双尾检验的/>值为0.206。 

这3个检验结果都比较一致且合理，然而却都不太准 
确。通过用 X 的零二项分布的精确检验(出现正面的数目）， 
得到： 


pix) — 


no 



fiol 

0. 5"0. 5 1£ ^ x = 0. 5 10 


其产生的双尾检 验的夕 值为 0. 3438。 从这个例子中得到的 
经验是，在小样本量数据中应用渐近结果时一定要小心。 


相关参数 


最大似然方法可以推及含有多个参数的线性联立方程 
中，让 〆X 丨 a ) 表示 n 个可能的多元观测 X ( m>l ) 的概 

(nXm) (iXl) 

率或者概率密度，这些多元观测和&个独立参数 a 有关。 [53] 

似然函数 L ( a ) 三 L ( a | X ) 是 a 的函数，此时要寻找一个 
S 使得函数最大。与之前相同，我们用 bg f jL ( ot ) 代替 L ( a )。 
要最大化似然函数，我们要先计算岀向量偏导 L (a)/aa 
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并使其为0,然后来解矩阵方程求 S 。如果解方程结果发现 
有不止一个根，这时，我们就要选那个可以产生最大似然值 
的根。 

与单个参数的例子一样，基于充分统计量的条件，最大 
似然估计量是一致、渐近无偏、渐近有效且为渐近正态分布 
的。 MLE 的渐近方差一协方差矩 阵为： 

y( o ) = {_E「 32l f L m — 】 [3.18] 

axk) 1 L J 

方程 3.18 中括号里的矩阵称为(不要和单位矩阵 I 混 
淆)。[ 54] 另外，如果0 = /( a ) ，那么#的 MLE 为及= /( f ) 。 

注意，类比多参数方程和单一参数方程。 

以下为记分检验和 Wald 检验的推广。的 Wald 统计 

量在 a = cto 时为： 

Z^ Q = (a — Oo ) f 0 ( a) _1 (o — Oj ) 


记分向量为 S ( a ) = 3 log e L ( a )/3 a , 那么，记分统计量为: 

Si = SiacY Uac ) 1 S(ao) 

似然率检验可以直接推 广为： 


Go = 2 log. 


" L ( a )~ 

. Uao ). 


这三个检验统计量都在 H 。 下遵循渐近分布(如/ )。 

每种检验都应该适应相对更复杂的假设。例如，我们想 
检验假设 H 。 ，其 ct 中々个元素的和某个特定值相等。我 
们让 L ( S 。） 代表在某些假设限制下的最大似然函数(例如， 
设一系列参数与某假设的一系列数值相等，但其他的参数 
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可任意估计) ;L(a) 表示放开限制后整体的最大似然函数。 


那么，在风假设下， 


Go ^ 21o& 


L(a) 

L(oo) 


它是自由度为 A 的渐近卡方分布 


o 


下一个例子 (Theil， 1971： 389— 390) 阐明了以下 结果: 
对于一个从均值为…方差为/的正态分布得来的《个独立 
观测样本足，我们想 估计; 《和^。已知似然函 数为： 


n 


as/ Lk 


xp 


(X,-/,) 2 


Id 


2 


(2rer 2 )~ n/2 exp -士 $ (足 _") 2 


那么，其对数似然函数为 


log.L^, =— 号 2 tt — |log</ ~ 2^ 2 (X — 户 ) 


其偏导为 


dlogeLC/Xy a 2 ) 

lo & L(«, a 2 ) 


2 —fj) 


da 


2 


2a ' 2d 



2(足一 ") 2 


令偏导等于0,求得… a 2 的估计量分 别为: 


/\ 




X 


X)(X ( -X) 2 


对数似然函数的二阶偏导矩 阵为: 
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Vd 2 log , L a 2 log , L 


V 


d^Ba 2 


9 Z lo & L d 2 lo & L 


da 2 dp 


dU ) 


2 


2 


E (足 i ) 


a 


4 


2 ( 足一" ) 


2 d 


a 


X ) ( X , - P ) 2 


取期望值会得到期望信息矩阵的负阵，注意， E ( X 「0= Q ， 
E ( X t -^) 2 = a \ 


K / i , a 2 ) 


2 


0 


o — 


2^ 4 


我们知道，最大似然估计量的渐近方差一协方差矩阵即其信 


息矩阵的 逆阵: 


\ 1 _ 


a 2 ) = Dr ("， a 2 )]— 1 


0 


0 


2a 4 


(1 =又的抽样方差为((7 2 /«)。 / 的 MLE 虽然有偏，但却是 
一致的(即方程 3. 12中的估计量 Si )。 

在许多应用中，数据包含了一个含有 n 个同分布观测的 
独立随机样本。数据整体的似然函数为所有观测的似然函 
数乘积 L ,( ct )， 那么数据整体的对数似然函数则为所有观测 
的对数似然函数 之和： 

n 

log^L(a) = 2 log 丄 ( a ) 
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因此，记分函数为逐个观测相关项 之和: 


n 


n 


S(d) = 2 Si (o) 






dlo^LjCa) 

da 


最后，样本信息是一个个体观测中所包含的 „ 倍信息 (记做 7l ) 


1(d) = rdi (a) = tjE 


d 2 log e L i Ca) 

~ Ba^a ~~ 




结果之所以如此，是因为似然函数的二阶导数对 n 个观测都 
是相同的。 


Delta 算法 


如前所述，假如#=/(«)，且&为 a 的最大似然估计量, 
那么，舍=/(2)为/?的最大似然估计量。这意味着身是渐 
近正态分布的，且其渐近期望值 为斤即 使函数 /(•) 是非线 
性的。 

利用 /( S ) 泰勒展式估计在《处一阶展开， Delta 算法产 
生了一个$渐近方差的 估计： 

P = f(a ) ^ /( a ) + / ( a )^ a — a ) [3. 19] 

其中， /'( a ) = d /( a )/ 也为 /( a ) 对 a 的求导口 

方程 3. 19 右边的 /(«) 是一个常数（因为参数 a 是定 
值），第二项是关于 f 的线性函数，由于《为定值，因此 /( a ) 
为常数，所以， 
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其中，为 f 的渐近方差。在实际应用中，我们用最大似 
然估计量^代替《，进而 获得哀 的渐近方差估 计值： 

5(彦）=/’⑷：⑷ 

为了解释 Delta 算法的应用，让我们先回顾一些概念，样 
本配比 S 为总体配比; r 的最大似然估计量,其渐近(实际上 

是有限样本)方差为 =； r(l — 其中为样本大 

小。对数优比或者 logit 的定 义为： 

A = fin ) = log , 

i —7 T 

A 的最大似然估计量为 A = Iog,[^/(l — tt )], logit 样本的 
样本渐近方差为： 

y ( A ) ^ [/’(7 r )] 2 y (朵） 

_ 1 ~ 2 7T( 1 — 兀 ) 

_兀(1_穴0」 7 T 

= 1 
nni\ _ tt ) 

最后， logit 样本的样本方差渐近估计值为 o ( a ) = 

1/ 7Z7T ( 1 — S ) 。 

■ — 

Delta 算法可以直接扩展到具有多个参数的函数中。假 
设择= f ( ai ， ar2 ，…，办）= /( or ) ，且《为 a 的最大似然估计 

量，其渐近方差为彳幻，那么，$=/(幻的渐近方 差为： 

- [8<«)]^( S ) g( «) L X If X g 
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其中， g ( a )=#/3 a ，％ 为的第 f 行第 ) ■列元素。及的 
估计渐近方 差为： 

o(^) = g(a) u(fi)g(o) 

Delta 算法不仅适用于最大似然函数的估计量，而且适 
用于其他渐近正态分布的估计量。 
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第7节 | 贝叶斯推断 






本章节引人另外一种统计推断，即贝叶斯推断。这里主 
要解释贝叶斯推断的核心思想，细节的部分将会被省去。 

贝叶斯定理 

首先，我们来回顾条件概率的定义。已知事件 B 会发 
生， A 发生的概率为： 

Pr(A | B) = [3. 20] 

同样， B 关于 A , 的条件概 率为： 

Pr(B I A) = [3. 21] 

将方程 3 . 21 进行变换，得到 A 和 B 的联合 概率： 

Pr(A D J3) = Pr(B I A)Pr(A) 

并将其代入方程 3. 20,可得到贝叶斯 定理： 

Pr(A I B) = Pr(B i ^f r(A) [3. 22] 


贝叶斯定理是以 18 世纪英国数学家托马斯 • 贝叶斯 (Thom 
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as Bayes ) 的名字命名的。 

贝叶斯统计推断是基于方程 3. 22的推断。让 A 代表某 
未知命题，我们想弄清楚其正确与否(例如这样一个命 题:一 
个参数等于某特定值)。让 B 代表与真命题相关的观测数据。 
无条件概率 PKA ) 为 A 的先验概率，它是在获得数据之前，我 
们确信 A 为真的 概率; Pr ( B | A ) 是假设 A 为真时获得观测数 
据的概率，即给定 A 的似然度。数据 B 的无条件概 率为： 

Pr ( B ) = Pr(B | A ) Pr ( A ) + Pr(B | A)Pt(A) 

那么，方程 3. 22 中的 PKA | B ) 就是 A 的后验概率，表示获得 
数据 B 后所修正的 A 为真的概率。 

贝叶斯推断是基于证据、检验先验的理性过程。主观论 
者和客观论者关于概率的理解是相反的。贝叶斯理论由初 
等概率理论发展而来，随后便引出了贝叶斯统计推断的一般 
过程。 


初步案例 

考虑如下的简单 情况: 假设你有两个“有偏差的”硬币， 
在抛掷过程中，其中一个得到正面的概率为 PKH ) = 0.3, 
另一个为 PKH ) =0.8。每个硬币都分别被装在盒子里，且 
在盒子上标明了它的偏差。但是你不小心把盒子都弄丢了， 
只好把硬币都放在抽屉里。一年后，你忘记了哪个硬币是哪 
个。为了区分它们，你随便挑了一个，然后拋了 10下，得到 
结果为 HHTHHHTTHH ——七次正面，三次反面。 


让事件 A 代表选取了硬币 Pr ( H ) = 0.3, 那么 A 为事 
件选取 Pr ( H ) =0.8. 在这种情况下，我们有理由选择先验 
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概率 Pr(A) = Pr(A) =0.5, 那么数据的似然 度为： 

Pr(B 丨 A) = 0. 3 7 (1-0. 3) 3 = 0. 0000750 

Pr(B I A) = 0. 8 7 (l-0.8) 3 = 0. 0016777 

请注意，常见观测数据的似然度在两种情况下都很小，但是 
A 的情况更有可能。 

利用贝叶斯定理(方程 3. 22) ，我们可得到后验 概率： 


Pr(A I B)= 


_0. 0000750 X 0. 5 _ 

0. 0000750 X 0. 5 + 0. 0016777 X 0. 5 


= 0. 0428 


Pr(A I B)= 


_0. 0016777 X 0. 5 _ 

0^0000750 X 0. 5 + 0. 0016777 X a 5 


= 0. 9572 


此结果说明，所选的硬币为 Pr ( H ) =0.8 的概率比 Pr ( H ) = 
0.3 的概率更大。 


贝叶斯定理扩展 


贝叶斯定理可以轻易地扩展到多于两个假设 A 和互的 
情况。比如有多个假设 ，找 ，…，风，其先验概率分布 
为？1(汗），£ = 1，…，*，且所有先验概率的和为1 [55] ;让0 
代表观测的数据，并有似然度 Pr ( D | 杖），£ = 1，…，々，那么， 
假设汉的后验概 率为： 

Pr ( H f I D ) = f r(D 丨 杜） Pr (片) — [3. 23] 

X ；^ Pr ( D | H ; ) Pr ( H ; ) 

方程 3. 23 的分母确保了在所有假设下，后验概率的和 
为1。有时候，为方便起见，我们可以省略这个标准化，将其 
简单表 示为： 
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Pr ( H f I D ) oc Pr(D | H t ) Pr ( H t ) 


即一个假设的后验概率与该假设下的似然度和其先验概率 
的乘积成正比。如果有必要，我们可以除以 UPKD | 


H , ) Pr () 来复原后验概率。 

贝叶斯定理对于随机变量同样适用。让《代表我们感 
兴趣的参数，它的先验概率分布或者密度为 />( a ); itL ( a ) 三 
P(D | a) 表示参数 a 的似然函数，那 么有： 


p(a I D )= 


Ua)p(a) 

^ L ( a ) p ( a ) 

alia ' 


其中， 《是 离散的，或者 


p(a I D) 



L(a)pCa) 

I I 


L(a)p(a)da f 


因为在更普遍的情况下，《是连续的。在两种条件下 都有: 


/ >(a | D ) oc L ( a )/>( a ) 


即后验分布或者密度与似然函数和先验概率(或者密度）的 
乘积成正比。跟前面一样，如果有需要，我们可以除以 

J ] L ( a ) p ( a ) 或者 \ Ua f ) p { a ) da f 来复原后验概率或者 

alW 」 

密度。 

有两点需要 提及： 

首先，进行贝叶斯推断之前，我们要求参数《的先验分 
布户 ( a ) 是合理的。 

另外，与经典统计量相反，我们把 CT 当做一个随机变量 
而不是未知常数，所以我们保留希腊字母。然而，由于与数 
据不同，参数永远不能确定——即使已经获得了数据。 
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共轭先验 

当先验分布已经选定，且似然函数和先验概率的乘积所 
得到的后验分布与该先验分布属于同一个系列，此时贝叶斯 
推断的数学会变得很简单。我们把这种情况的先验分布叫 
做“共轭先验”。 

贝叶斯推断曾经只在共轭先验的情况下才有实用价值。 
然而，随着计算机软件和硬件的发展，通过随机取样，数学上 

难以解决的后验分布变为可能。比如，马尔科夫链蒙特卡罗抽 
样 (Markov Qiain Monte Carlo , MCMC ) 使得贝叶斯能广泛应用 

于统 计学。 但是不论怎样，先验分布的选择是非常重要的。 

贝叶斯簡的例子 

让我们继续之前的例子——掷硬币，我们想通过估计得 
到硬币正面的概率 7 T ， 但是在少量离散值中又无法限制; T 。 
原则上，; T 可以为0到1之间的任意数值。要估计 7 T , 需要收 
集10次独立投掷的数据。从之前的伯努利似然函数中，我 
们 知道： 

L (? r ) = V (1— tt ) 1 。—" 1 [3. 24] 

其中， A 为观测到的岀现硬币正面的次数 9 通过实验，我们得 
到数据 因此 ， h = 7 0 

方程 3. 24伯努利似然函数的共轭先验即贝塔分布， 

a—] / 1 1 

P(7v) = B(^b) ( 0 <^< 1 且〜 6 > 0 ) 

当贝塔先验与似然函数相乘后，我们得到了一个后验密度 
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形式： 

fiGrl Dyoc^d-Tr ) 1 ^^ 1 =^(l-^) 2+fr 

即贝塔分布的形状参数为 A+tz = 7 + a , 10 _A + 6 = 3 + 6。 
在效果上，先验概率在似然函数里将 a 和6分别加到了出现 
正面和反面的次数中。 

那么，我们应该如何选择 a 和6呢？方法之一可以反映 
你对似然值的主观估计。例如，如果一个硬币本身没有问 
题，那么， 7T 的值会很接近 0. 5。假设取 a = 6 = I 6 f 那么， tt 
就会被限制在 0. 3到 0. 7的区间内（见图 3. 15)。如果对该 
限制不太满意，对于 a 和6,我们可以取小一点的值。当《 = 
6=1时， ; r 的所有值都可能相等，这就是所谓的“扁平先验分 
布”，它完全忽略了 7 T 值。 [56] 

图 3. 28描述了 7 T 在两种先验下的后验分布。在扁平先 
验下，后验和似然函数成正比，因此，如果我们取后验的众数 
作为 7 T 的估计，就会得到 MLEA = 0, 7。「 57] 相反，对于 a = b 
= 16这个信息先验，其众数在; 0. 55,它和 tt = 0. 5的先 
验分布的众数非常接近。 

令人不安的是，该结论要取决于关键的先验分布，但这个 
结果却是在少量的样本下得到的。我们知道，在这种情况下 
用贝塔先验如同在数据中又增添了 a +6 个观测。随着样本量 
的增加，似然函数开始占领后验分布，先验分布逐渐被掩 
盖。 [58] 对于此例，如果掷;2次硬币，其后验分布的形式 变为： 

PCk I D ) oc 严 1 (1 - 兀广’ 1 


得到的 A 个正面和 n - h 个反面的数目都会随着掷币次数的 
增加而增加。直觉告诉我们，从先验来说，样本量小时所要 
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考虑的加权要比样本量大的时候大得多。 


贝叶斯区间估计 


在经典统计推理中，我们期望得到的不仅是参数的一个点 
估计，还要检验估计中的不确 定性。 参数的后验分布直接表示 
了统计不确定性。通过后验分布，我们可以进行多种贝叶斯区 
间估计，这些区间估计均可以用来和经典置信区间进行对比。 

一个简单的选择是中央后验 区间: 总共含 10( k 百分比的中 
央后验区间为从 a -0)/2 到 ( l + cO /2 的分位数。与以解释复 
杂而著名的经典置信区间不同，贝叶斯后验区间的解释很 简单: 
概率是 0. 95表示其参数落在95%的置信区间内。该差别反映 
了贝叶斯参数解释是把参数当做一个随机变量，对数据进行 
观测后，其通过后验分布表达了对参数值的主观不确定。 

两个后验分布的95%中央后验区间可从图 3. 28中看出 Q 


P(7T) 



注 : a =1,6=1 是扁平的贝塔先验 ； a = 16, 6 = 16是信息贝塔先验。其 
中，在10次掷币中包含七次正面。两个靠近图底部的水平线分别展示 
了相应先验的95%中央后验区间。 


图 3. 28在两个先验分布下得到正面概率的后验分布 
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贝叶斯参数推理 

贝叶斯推理可以直接延伸到对一系列参数 a = [ m ， 
&，•••，办^的同时估计中。在这种情况下，有必要指定参数 
的联合先验分布 P(a) 和联合似然估计 L («)。 那么，对于只有 

单一参数的情况，联合后验分布与先验分布和似然估计的乘 
积成 正比： 

p(a I D) oc />(o)L(o) 


该推理主要关注每个参数的边缘后验分布 〆 a , ID ) 。 
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第 3 章》率估计 


第8节 I 推荐两读 



大多数介绍性的数理统计和计量经济学教材都会涵盖 
本章所提及的各个主题，且其描述更为正式和详尽。如考克 
斯 ( Cox ) 和欣克利 （ Hinkley ) (1974) 的著作，相对于本书,其 

涉及的知识较难。还有策尔纳 ( Zdl ne r )(1983) 的著作，其结 
构紧凑，与考克斯 （ Cox ) 和欣克利 （ Hinkley ) (1974) 的书相 
比，较为简单。旺纳科特兄弟的 （Wonnnacott Wonnna - 
cott , 1990) 著作用相对简单的数学知识对本章涉及的话题 
进行了深刻诠释。如果你觉得本章相关章节过于精炼且缺 
少细节，那么我认为这本书无疑非常合适。同时，关于渐近 
分布理论还有泰尔 ( Theil )(1971) 的著作。关于 Wald 检验、 

似然率和记分检验还可参看英格尔 （ Engle ) (1984) 的 著作。 
最后，对于贝叶斯推理的相关内容，兰开斯特 （ Lancaster ) 
(2004) 的书确实是一本经典之作。 






实际 应用： 线性最小二乘法回归 
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这本书的重点在于介绍社会统计学的数学方法，而不在 
于统计方法本身。不过，我还是觉得有必要介绍如何将数学 
应用到统计学方法中。所以，本章的目的是阐述线性最小二 
乘法回归这一统计方法的发展过程-个读者所熟悉的 


话题以及由此推衍的相关特性。 

首先，本章将描述最小二乘法的数学性质，但是这只是 
统计学的一部分。虽然数学在应用统计学中扮演了重要的 
角色，但是应用统计学不全是数学，其范围更广，例如，有关 
方法论的话题。此外，线性最小二乘回归在几个方面代表了 
应用统计学的核心方法，且在统计学中经常用到，它容易扩 


展到一般线性模型、广义线性模型和其他模型，并为其他统 
计模型提供了运算基础。最后，对于线性最小二乘法回归在 
数据分析中所扮演的角色，需要更深人的探讨。因此，我认 


为这是一本有关应用回归分析比较合适的教材 （ Fox ， 


2008) 。 

本章将把前面几章所学的内容应用到统计方法 中:第 1 
章的矩阵和线性代数，包括矩阵秩和线性联立方程;第2章 
中最优化问题所用到的矩阵微 积分; 第3章的概率论、统计 
分布、估计量性质和最大似然法估计。 


第 4 章实际 应用: 线性最小二乘法回归 
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第1节 I 最小二乘法拟合 

■ - ■- J ■■ , - JlfBIMjh hMlld ■ VM ■ ■ ■ ■ _ ■ _ ■ - - '!■ ■ - ■ - ■ ■■■■■■■■■■■■ • ■■■■■■■■■ ■■III ^ ■ ■■ • ■■■ ■■ ■ ■h rfjy ■ ■'■ fc* ~ ■ I ■ I ■» I ■ ■■ — ~W 


一 个线性回归方程可以 写成： 

y, = AB x Xn + B 2 a + … + +E t [4.1] 

其中， Y, 是《个观测中的第〗个定量响应变量(或者“因变 
量”） ;☆， ^，…，&为第 i 个观测的々个定量解释变量(或 
者“自变量”)； A， 战，坎， •• •，氏为回归系数， A 为回归所 
得的截距或者 常数; 系数 B,G= 1，2,…， 《为分项斜率系 
数;^为回归残差，表示I偏离线性回归面的程度。 

Y i = A + B] x a + 氏*3：2 + …+ 


其中， K 为第 〖观 测的拟合值。 


注意，上例中我们用了大写字母 K 和仏，这表明，如果 
我们所选择的(含有72个观测的)样本不同，因变量的值就会 
改变，残差也会改变。因此， K 和 R 是随机变量。同样，因 
为回归系数随着样本的改变而改变，所以它们也用大写字母 
表示。相反，我用小写字母表示解释变量，表明在重复抽样 
中，它们的值是固定的，这是典型的实验设计，因为所有自变 
量 X 都是由研究者直接控制的，在重复实验中不会改变。把 
所有自变量当做定值会使数学变得简单，同样也会使之变得 
不太重要(但不是绝对不重要）。在下文中，我会简要地对一 
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系列随机变量 X 进行介绍。 

我们将最小二乘法回归系数(即 A 和 B 的那些可以使残 
差平方和最小的取值)看做一个回归系数的函数， 则有： 

s(A ， b” … ，战 ）= 文拉 = Sa.-v ,) 2 

i = 1 i = l 

=- B 兩 - B k x,) z 

(=1 

虽然我们可以继续用纯量形式，但是矩阵形式更有优 
势。我们可以把方程 4. 1改 写成： 

y = X b + e 

UX1) (nXk^D(k^lXl) (” XI) 

其中， [ K ， K ， …，八] / 是一组观测的因变量向量， 



为模型(设计)矩阵，它包含了解释变量及首列为1的回归常 
数(常数回归因子 ）； bE [ A ， 战 ，…，战 T 包含了回归系 
数； e 三[&， E 2 ，…， £；]' 为一个残差向量。那么，残差平 
方 和为： 

S(b) = e’e 

= (y-Xb)'(y —Xb) 

[4 2] 

=yy- y r Xb- b'X'y + bX 7 Xb • 

=y’y —2/Xb + b’X'Xb 


由于 y'Xb 为 （1 X 1), 因此，它和其转置 Wx ' y 相等。 

为最小化残差平方和 S ( b ) ，我们可以对回归系数 b 求 



第 4 章实际 应用: 线性最小二乘法回归 
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导，将方程 4. 2代人 可得： 

= 0 — 2 X’y + 2 X’Xb 

do 

使之为 o 并移项，可得线性最小二乘法回归的正态 方程： 

XX b = X’y 

(k+i xi+i)u+i xi) ci~ri xi) 

这是一个拥有々+1个线性等式和 &+1 个未知回归系数 b 的 
系统方程。该系统方程的系数矩 阵为： 


1 

n 


2 ^-2 … 

Zj x ^ 


/ j 

S x n 

ZjJ0ilJ0i2 … 

Zj 

x'x = 

〉 i 工 1.2 

■ 

m 

y] 工 i2 工 a 

• 

■ 

A M 

zl^Ciz^ik 

参 

• 


W 

« 

■ 

* 

〉 : 工 it 工 fl 

_ ■ 

• 攀 

■ 

* 

S 4 


它包含了平方和及模型矩阵的列的交叉乘积。方程右边的 

向量， X'y =[泣，2#， XU #， …， 

包含了模型矩阵每一列交叉乘积的和以及因变量向量。平 
方和及乘积 X ' x 和 X ' y 可以由数据直接计算得到。 

X'X 是满秩的，即非奇异的，假如模型矩阵 X 是列满秩 
是十1,则没有一个自变量是其他自变量的完美线性函数。 
在这些条件下，正态方程有唯 一解： 

b = ( X ' X )- 1 X'y [4.3] 


这是 S ( b ) 的一个最小值，因为 X'X 是非奇异且正定的。 
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第2节 I 一个 线性回归的统计模型 



一个常用的线性回归统计模 型为： 

Yi a + Pix a +^x i2 + … +^x ik +Ei 

其中， Hrz 个样本观测中的第 i 个响 应值; x ,，： r i2 ，…，& 
为 k 个解释变量 A ， 译，…， A 为总体回归系数，它是从 
样本数据中估算得来的 A 为第〖个观测的误差变量。即使 
误差不是随机变量，我们还是用希腊字母表示，因为它不能 
直接观测。我们假设误差是正态分布的，且其均值为0,方差 
为常数/， e ,〜 N (0, 7)，不同观测的误差是相互独立的。 
最后，将线性方程写成矩阵 形式： 

y = X B + e [4.4] 

(uXl) 十 (nXl) 

其中， y 为因变量， x 为模型矩阵， / r = [«，译，择，…， A ]' 
为总体回归系数向量， e 三 [ ei ， e 2 ，…， £„]' 为误差向量。 
误差向量是具有纯量协方差矩阵的多元正态分布向量， e 〜 
N n (0, </ I n ) 0 请注意，由于它们是独立的，所以不同的误差 

是不相关的。 [59] 

因变量 y 的分布遵循 S 的分 布： 

H = E ( y ) = E ( Xfi + e ) 


第 4 章实际 应用: 线性最小二乘法回归 


= Xfi + E ( s ) 

V(y) =E[(y-/i)(y-〆] 

= EK % fi + s - Xfi )( Xp + s-Xfiy 

== (^In 

y 〜 NJXfi ， 


因此，假设 E ( b ) = 0 隐含了 £：4)是 X 的线性函数。 
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第3节 I 作为估计置的 Ji 


小二乘法系数 




方程 4. 3的最小二乘法回归系数 b 可能可以用来估计 
方程 4. 4的线性回归模型的系数。由于 b 是由因变量 y 经过 
线性变换得来的，因此，最小二乘估计量的性质可以简单表 
现为： 

b= (X’X)-= My 

其中，变换矩阵 m = ( x ' xr 1 ^。 因为模型矩阵 x 对于重复 

抽样是固定的，所以 M 亦如此。那么， 

E(b) = ME(y) = (X ， X)~ l X / Xfi= fi 

因此可证明， b 为的无偏估计量。请注意，该结论取决于假 

设£：00 =卻（即线性假设）。 

b 的协方差矩阵可从常数误差方差和误差不相关，即 V 

的假设 得来： 

V(b) = MV r (y)M / 

= [(x’xn’vual)—H 

='(x'xmcx'x) 一 1 


= ^ 2 (x / xr 1 




185 


第 4 章实际 应用: 线性最小二乘法回归 


最后，根据误差正态分布假设，我们有: 


b 〜 U/J ， ^(X^xr 1 ] [4.5] 

最小二乘法估计量 b 不仅仅是的一个无偏估计量，而 
且在线性、常误差方差和独立性假设下，是数据线性函数的 

一个最小方差无偏估计量。该结果称为“高斯-马尔科夫定 
理” ( Gauss-Markov Theorem ) ，常用来支持最小二乘法估计， 

但是不太支持最小二乘法估计量。当误差分布为非正态时， 
数据的其他非线性无偏估计量(所谓的稳健性回归估计量) 
比最小二乘估计量更为有效。但是，当误差是正态分布的时 
候,最小二乘法估计量将是所有无偏估计量中最有效、最可 

信的。[ 60] 
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第4节 I 回归模型的统计推断 



有关总体回归系数的统计推断，除了点估计外都很复 
杂，因为我们基本上不知道误差方差/，所以不能直接将方 
程 4.5 用于 b 的最小二乘估计量的分布。我们必须先估 
计人 

a z 的一个无偏估计 量为： 


S 2 


2 ：^ 


攀 


e e 


n —— k —— 1 n —— k —— 1 


其中，是 一 i 为误差的自由度(估计/»的是 + i 个元素时， 
“损失”了々+1个自由度)。那么，估计的最小二乘协方差矩 
阵为： 

V(b) = S 2 (X’X)- J 


b 的对角元平方根为回归系数的标 准差: S £ XA )， S £ XA )， …， 
SE(ft) 0 

个体回归系数的推断是建立在 t 分布上的。例如，检验 
零假设 •• 氏=甿， 即斜率系数等于一个特定值(一般 
为0)，我们可以计算检验统 计量： 



- ^ 
SECjB,) 
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它在零假设下是以^分布的。同样，建立一个岛的95% 
的置信区间，我们取 

A = 爲士 W -1. 0. 025 SEiB ,) 

其中4+1,。.。 25 是自由度为1、右侧尾部概率为 
0.025 的临界值。 

在一般情况下，我们可以检验线性 假设： 


H 0 : L P = c 

十 l)(i 十， XI) (qXl) 

其 中丄和 c 包含了特定的常数，且我们假设矩阵 L 是行满秩 
的 9 <々+1。那么， F 统计 量为： 


F 0 = 


(Lb - c)' [ux’xr 1 L’ IT 1 (Lb - c) 


qS 2 


如果为真，那么，它遵循以 9 和 72—&—1 为自由度的 F 统 
计值。 

假设我们要检验一个包含两个解释变量的回归模型的 

“联立”零假设 H 。 :择=泽= 0,我们可以取 L=[^ J 

和€= [0, 0]'。为了检验回归系数相等， H 0 ^=^ (等价于 
Hq ：]9| —择= 0) ，我们取 L = [0，1， _ 1] 和<! = [0] 。 [61] 

在下文，我们会提到在回归模型假设下，回归系数的最 
小二乘估计量等价于最大似然估计量。因此，当样本量够 
大，我们可以用 Delta 方法来推导回归系数的非线性函数的 
标准差。 

例如，考虑如下二项式回归 模型： 


Y = +e [4. 6] 


该模型可以用 Y 关于: T 和 X 2 的线性最小二乘法回归拟合， 
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因为其系数择、译、 A 是线性的。假设我们对回归方程达到 

最大值或最小值时的2值比较感兴趣，对方程 4. 6两边 
取期望值，然后对 x 求导， 可得： 


dE(Y) 

dx 


= A + 2/Jx 


使之等于0,解方程，可得到函数为最小值(假如译是正的) 
或者最大值时(假如译是负的)的: T 值： 


其为回归系数 A 、 A 的非线性函数。 

要运用 Delta 方法，我们需要 y = /(A ，译 ） 三 一译/ (2 择) 
对回归系数求偏 导数： 


dy __ — 1 

Wi ~^ 

ir = A 

唂 2 虞 


现在，我们要计算择、 A 的最小二乘法估计 a 、 压 及其方差 
铲(汉）和^>(压），还有它们的协方差氏）。我们知道， 
y 的最大似然法估计为》 =- B x / 2 B 2 ，那么，的 Delta 方 
法方 差为： 


y (y )= 


2 


/\ 


2 B 2 


+ V ( E 2 ) 


2 球 


2 


+ 2 CCB ” B z )(- 



B , 


2 B Z / V 2 B 


2 


那么， y 的95%置信区间为? ±1.96 v ^(7 )。 
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第5节 | 回归模型的最大似然法估计 



如前文所述，在线性模型假设下， y 〜 iV „( 邱， YU 。 所 
以，对于第；个观测， I 〜 N „ ( Y ) ，其中 次为模 型矩阵 X 
的第 〖行。 将其写成方程形式，可知第 i 个观测的概率密 
度为： 


P ( y ) 



~ (yi — xfi) 
- 2 ? 




由于《个观测是独立的，因此，它们的联合概率密度为其边 
缘密度的 乘积： 


^( y ) 


1 


y/2n) 


7 exp 


X ) (M — x ’ fi ) 
2 ? 


= (27 r {7 2)»/2 ex P 「— ( y — 邱) ’; y — 邱) 1 [4.7: 

L 2a 

虽然这个方程同样遵循 y 的多元正态分布，但是从 p { yi ) 3 \ 
P ( y ) 的推导过程有助于我们考虑随机回归元。 

从方程 4. 7中，我们可得对数似然 函数： 

log, L(fi f a 2 ) ylog, 2n— ylog, a 1 

-^Ay-XfiViy-Xfi) [4.8] 
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为了最大化似然函数，我们需要求方程4.8对参数/»，¥的 
偏导数。当我们注意到 ( y _ 邱 /( y _ X /») 实际上是误差平方 
和时，求导过程会变得 简单： 

alo^Ly, a 2 ) =-A. ( 2X f xp-2X f y) 

dp la 

—^ L d ( / 9 () ■ 一晋(長)一忐 (广卻)>—耶） 


让偏导数等于 0 并解方程， 可得： 

p = ( X ’ X ) _1 X'y 



(y — Xg )'( y — Xg ) 


/ 


e e 

n 


最大似然法估计量灰和最小二乘法估计量 b 是一致的。 
实际上，不需要正式的最大似然法，我们也可由方程 4. 7发 
现这个等价关 系:当 负指数很小的时候，似然度会很大，且指 
数的分子中包含了误差平方和。因此，最小化残差平方和等 
价于最大化似然度。 

S 2 的最大似然估计量是有偏的，因此，我们会选择如前 
所述的类似且无偏的估计量 S 2 =“/(«- A — 1)。然而，随着 
n 的增大， P 的偏差越来越趋近于0,作为一个最大似然法 
估计量， P 是一致的。 


第 4 章实除 应用: 线性最小二乘法回归 
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第 6 节 | 随机矩阵应用 

- ■ ..... . ... ■ ■ . _________ I I ' M I.-1 >!■%■ mm - ■ 丄 __ - ■■ ■■ . j_j_ ■ ■ ■ ■ ■ m _ ■_ 


本章中，我们进一步发展了线性回归分析理论，它不再 
局限于模型矩阵 X 是固定的这一前提。如果重复一个研究， 
我们希望因变量 y 能变化，但是由于 x 是固定的，那么在重 
复研究中，自变量的值为常数。这种情形描述了实验的真实 
情况，因为自变量是由研究者控制的。然而对于大多数的社 
会学研究来说，数据都是观测到而不是实验控制得来的。在 
一 个观测研究中(例如，调査研究），我们一般会在重复研究 
中得到不同的解释变量。所以，在观测研究中， X 是随机而 
非固定的。 

只要符合某些条件，线性回归统计学理论就同样适用于 
x 是随机的情况。对于固定的自变量，其前提假设为 s 〜 
NAO , / u ， 即所有模型矩阵的离散行的误差分布是相同 
的。当 X 为随机变量时，我们需要假设这个性质对于样本总 
体中所有可能的自变量组合都成立，即假设 X 和 C 是独立 
的，那么，样本中取值为 e I I 的自变量误差的条件分布为 
N„(0, /U ， 不管选取的是哪个特定样本， Xo = { 巧}。 

因为 X 是随机的，所以它存在一些(多元)概率分布。我 
们不需要对这些分布给定假设，但是我们有如下要求： （1) 对 
X 的测定不存在误差，且 X 和 e 是独立的(如前所 述）； （2) 假 
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设 X 的分布与模型回归参数/»、 er 2 无关; （3) 规定 X 的协方差 
矩阵是非奇异的(即在总体中没有 X 是不变的，或者说没有 
一个 X 是其他变量的完美线性函数)。我们不用假设回归元 
(和误差相比较)是正态分布的，这样会好很多，因为许多 X 
是非正态的，如虚拟变量和多项式变量，还有其他许多定量 
解释变量。 [63] 

虽然没必要不断重复，但是我会指出随机解释变量在新 
假设下的一些关键结果。其他结果可以此类推。 

对于 X 值的一个特定样本\， y 的条件分 布为： 

E(y\X 0 )=El(Xfi+s)\X 0 ^ 

HJ + f ： [義] 

= ^oP 

那么，最小二乘法估计量的条件期望均 值为： 

E ( b |^)= E [( X / X )- 1 X / y | X 0 ] 

—— { ^LT 、一 1 V 0 

— VA 0 Aq ) A 0 AqP 

=P 

因为这个过程可以对任意 x 进行重复，所以最小二乘估计量 

b 对于任意该类值都是条件无偏的，它在无条件下也是无偏 
的， E ( b ) = fi 0 

现在我们对进行统计估计。具体来说，想象我们需要 
计算联合零假设％:译 =“=A = o 的值。因为当 x 为 
固定的时候， s 丨& 〜 n „( o , Yu , 对于 X = Xo 的 p 值是正 
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确的(即对于正在使用的样本）。然而， X 没有什么特别之 
处，误差向量£是独立于 X 的，所以对于任意的 X , S 的分布 
都为] v „(0， d )。 因此，/>值是无条件有效的。 

最后，我要指出，/»、/的最大似然估计量不会因 X 是随 
机的而改变，只要新的假设成立——当 X 为随机变量时，样 
本观测不仅包含因变量（1，…， YJ ， 而且包含自变量 
(<，•••， X n )； 我们可以把观测记为 [ YmX :]， …， 
[ l ， xl ]。 由于这些观测是独立采样的，因此，它们的概率 
密度为它们的边缘密度的 乘积： 

p(y ， X)=p(ly lf x；], — , [^, x'J) 

=/>(% ， X。X … Xp(y n , x„) 

第/次观测的概率密度户(乂，<)，可以写成 〆 乂 |<)/>( x :)。 
根据线性模型，给定 X (的％的条件分布是正 态的： 

a v2tt L 2<t J 


那么，所有观测的联合概率密 度为： 

My ， X ) = n /.(^) -^= ex P r -^^" 

i=l a yLK L 乙」 



= p ( X ) p(y I X ) 


只要 MX ) 不再由参数 p 、/ 决定，我们就可以在最大化 
Piy ， x ) 的过程中，忽略 X 的联合密度。最后，对于固定的 
X ，最大似然估计量 p 与最小二乘估计量一致。 



194 


社会统计的数学基钃 


注释 

4 

[1] 我们可以为长方形矩阵定义一个广义的逆矩阵，但是对于方形矩阵，其 
逆矩阵不合常规。 

[2] detA 的另一种常用的替换表示法为 | A | 。 

[3] 在统计问題中应用几何向量，尽管在向量空间的维数通常与样本量《 
相等，我们仍可以根据我们的兴趣将子空间限制到二维或者三维。 

[ 4 ] 矩阵 X'X 的元为 x ： x , = \ • x , ，其中， ★ 和 x , 分别为矩阵 X 的 第！‘ 列和 
第 j 列。 类似地， x " x 的第 I 个对角元为= x , • Xi 。 

[5] 按照常规，我们通常定义较小的角为两向量间的夹角（因此，该角度不 
可能大于 180°) ， 记做如那么较大的角则为360 — 机由于 cos (360- 

= cosCtu ) ,因此，这样定义不会引起歧义》 

[6] 不要把线性方程的几何表示与向量的几何表示混淆。 

[7] 有关术语的说 明:一 些作者不论方程组一致与否，或者系数矩阵的秩多 
少，一概把“方程数目大于未知数”的方程组定义为“超定方程组”，把 

“方程数目小于未知数”的方程组定义为“欠定方程组”。我认为，我在 
文中的论述 ( Daivs , 1973) 更合适些。 

[8] 有关广义逆矩阵在统计学中的延伸论述，请参考相关著作 （Rao 
Mitra , 1971) Q 

[9] 我们可以给方程 1. 12加一些限制条件，使得广义逆矩阵变得唯一。比 
如， Moore - Penrose 广义逆矩阵 A + 满足四个 条件： AA + A — A ； A + 

AA += A + ; AA + 是对 称的; A + A 也是对称的。在典型的统计应用中， 
广义逆矩阵非常好用。 

[10] 首先， Ac 是 A ' c 的广义逆 矩阵; 其次，由方程 1. 15,我们知道 A = 
E ^ AcE ’ \ 那么， 

AA - A = (^ AcE -' XE - AcEK ^ AcE *- 15 
= E ^ AcA ' cAcE - 1 
= E^AcE— 1 

=A * 

从而方程成立。 

[11] —元二次方程 回顾: i 满足 方程： 

or 2 +&c + c = 0 


其中， a 、6 和 c 为指定常数，那么， 
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k 


— 6 士 *s/b 2 — 4ac 
2a 


[12] 通过解特征方程求特征值不是一个很好且很有吸引力的方法，还有一 
些比较实际的求解特征值及其特征向量的方法。 

[13] 对于一个对称正定矩阵，我们仍然有可能找到其 Cholesky 因子，但是 
加上相应行中的其他元素，矩阵 U 会有一个或多个对角元素为0。另 
外，为了解决矩阵 u 对角元素的问题，我们必须取正平方根。 

[14] 牛顿声称，莱布尼茨窃用了他的研究成果，从而引发了科学史上孝著名 
的争论之一。 

[15] 在有些数学领域，自然数仅指正整数。 

[16] 虽然我倾向于详细地标出对数的底，如 log 10 , lo & (除非底是不相关的， 
标出 log 已经足够），但是其他许多学者喜欢用 log 或者 In 代替自然 
对数。 

[17] 微商不是普通的数字，所以可以把链式法则想象成同时乘以和除以一 
个引发机制微商 dz 。 在导数中引人微商是有效的。 

[18] 超平面是指超出三维空间的一个线性(平的)表面。超平面的维度比总 
空间的维度少1，就像三维空间里嵌人的一个二维对象。 

[19] 有些学者喜欢加入约束条件，而不是减 去之： 


h(xi , x z , …， x„, X) = /( 工 1 ， …， + A X x 2 , *■*, x„) 

但是，除了 A 的符号发生改变以外，这两种方法是没有差异的。 

[20] 如果对于任意非零向量 X ， 有 X'Hx>0, 那么我们说方阵 H (这里是海 


森矩阵)是正定的。正定海森矩阵是最小值的充分非必要条件。同样， 
如果对于任意非零向量*，有 X'HXC 0,那么我们说方阵 H (这里是海 


森矩阵)是负定的。负定海森矩阵是最大值的充分非必要条件。 


[21] 非零整数《的阶乘定义为 n ! l)(n —2) …(2)(1)。按照惯例， 


0! = 1! =1。 

[22] 这种近似叫做“穷举法”(虽然不是传统的极限表示），被古代希腊人所 
熟悉。 

[23] 读者可以证明 FOc ) 是函数 /( x )= / + 3的一个反导数。一般而言， 
我们可以通过反过来应用幂函数的导数的规则，进而寻找多元函数的 
反导数。 

[24] 样本空间是无限的，原因在于可能需要等任意足够长的时间才能观测 
到第一次出现硬币正面的情况，尽管在现实中等待无限长时间的概率 
是极小的。通常，当 S 是离散且无限的时候，我们称其为“可数无穷”， 
因为 S 中的元素与自然数0、1、2等 一一 对应。 
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[25] 这些定理类似于(或者等价于)那些由20世纪俄国数学家久 N , 柯尔莫 
戈洛夫(九 N. Kolmogorov) 所提出的定理。 

[26] 如果随机变量 X 可取有限或者可数无穷多的不同值，那么我们说，该 
随机变量 X 是离散的。 

[27] 概率通常对应的是密度函数 p ( x ) 下的区域，随机变量 X 的某一特殊值 

X 。 下的区域-条与横坐标垂直的线，其概率为0。 

[28] —个连续随机变量 X 的概率密度函数常常表示为 / U )， 其累积分布函 
数表示为 FCr )， 但是我觉得用和 夕 U ) 表示更好，因此我倾向于 
把 /( • )留作他用，比如随机变量的变换。 

[29] 如果你对积分不是十分熟悉，不要过于苛求。其理解的关键点在于，我 
们将概率密度曲线 pCr ) 以下的区域解释为概率，累积分布函数 CDF P 
(: t ) 的高度告诉我们，随机变量 X 的可观测值小于或等于某一特殊值 x 
的概率。积分符号表示连续求和，代表了曲线以下的区域。 

[30] 由于 / Kx ) 具有连续性,再加上 Pr(X = * r 。） sPHXsx 】） =0,我们不 
需要区别 Pr(x 0 < X < a ) 和 Pr(x 0 <X<x l ) 0 

[31] —些随机变量没有定义其期望值和方差，在这里，我忽略了这一可 
能性。 

[32] 我们是在 X 的支持下整合的，因此不需要包含整条实线。 

[33] 如果你对第2章介绍的有关积分部分的内容不太熟悉，其实可以简单 

地把积分符号看做求和符号^]。 

[34] 这里用希腊字母 7 T 的原因在于，概率无法被直接观测到。由于; r 代表 
概率,其值在0到1之间，所以不要将其跟数学常数〜 3. 1416混淆。 

[35] 回忆一下有关阶乘运算的 法则： 

n\=n X («_ 1) X…X 2 X 1 (« 为任意大于1的整数） 
e 1(„ 等于0或 1) 

[36] 一些作者会用 a ) 来代表正态分布，该表达用正态分布的标准方 
差代替了我们所用的方差。 

[37] 任意存在有限均值和方差的随机变量都可以标准化为均值为0、方差 
为1的随机变量。但是标准化对分布的形状并无影响，尤其是，它不会 
把一个不是正态分布的变量变为正态分布的变量。 

[38] 小写字母£是一个通用表示方法。 

[39] 当；1=1时， E ⑴的期望值不存在，但是 z 的中位数和众数仍为 0 。 ~被 
称为“柯西分布” (Cauchy distribution) ，它是以 19 世纪法国数学家奥古 
斯丁 • 路易斯 • 柯西的名字命名的。 

[40] 将命题反过来则为 假:随 机向量 X 所包含的元素的边缘分布是单因素 
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正态分布，不一定为多元正态分布。 

[41] 把 { R ，办，…，久， … } 说成非随机序列不会有明显的矛盾，虽然这些 

概率建立在随机变量上，但是概率本身是特定的数字——如 0. 6、 0. 9 

- *■-* - 

守守。 

[42] 用渐近分布定义渐近期望值和方差更具吸引力，因为这个目的的序列 
不是在所有情况下都存在的 （ Theil ， 1971： 375—376； McCaUum , 
1973)。我所用的渐近期望和方差的符号一 e ( •)*“•） ——不是 

标准化的，读者应该注意，这些符号有时会被普通期望值和方差的符 
号—— E ( • )和 •)—— 所替代。 

[43] 有关统计估计的大部分材料以及这本书的相关内容均来自费舍尔 
( Fisher , 1992) 的一篇论文,该论文被誉为20世纪最重要的统计论文 
之一 '( Aldrich , 1997) 0 


[44] 如果没有强调对称性，我们所说的中心概念就会变得很模糊。 


[45] 严格来说，的导数没有定义£：= 0时的情况，但为方便起见，我们 
将 E = 0的情况设定为 ^ Lav ( O ) = 

[46] 可以写成该形式的估计值可以看成最大似然估计值的广义形式，因此， 


也被称为 “ M 估计值”。最大似然估计量是通过对合适的概率函数或 
者概率密度函数 〆 •） 进行变换和(三 一 logjU — 沁得来的。 


[47] 我所用的命名不太严格，只是比较方便而已。严格地说4函数不是 
个影响函数，只是其形状与影响函数相同。 


[48] “双平方”常常应用在 0 函数和权重函数上（因此称为“双权”)，它是近 
期才出现的统计词汇，但是作为目标函数却不是。 

[49] 因为一个重新降级过的 M 估计值的估计方程(如双平方)可以有多于 


一个的平方根，所以选择初始估计便成为必然。 

[50] 似然函数是 7 T 取值在0和1之间的连续函数。此例与概率函数的不同 


之处是，它所有可能的样本是有限的，为 2' 

[51] 严格地说， Fisher 信息是参数值为《时所估计记分的 方差: 


I(a)=E m a 

在许多情况下，该方程与文中提及的方程等价，但是相对复杂和麻烦。 

请注意，记分的方差仅是其平方的期望值，因为在《时，其期望记分 
为0。 

[52] 在观测信息上建立 MLE ^ 的方差估计值是可能的，而且更方便计算。 

j r 八、 — (夕） 

Iuia )= ~~ 


t 
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[53] 我们说参数是独立的，意思是空值可以从其他参数取值得到。如果参 
数间存在依附关系，那么，多余的参数就会通过一个函数被其他参数所 
替代。 

[54] 在单一参数的例子中, Fisher 信息更广义的定 义为： 

Ko )=£ [(气 —)小] 

同样，我们可以通过用 MLE ^ 时的观测信息来进行研究。 

[55] 要利用贝叶斯推断，先验想法必须符合概率论，所有先验概率的和必须 
为1。 

[56] 在这种情况下，先验是一个长方形密度函数,其参数 7 T 被限制在0到1 
之间。例如,估计正态分布的均值 P 不存在界域问题，那么它在 一 oo 
< fi < oo 的扁平先验形式 = C 不存在一个有限概率，因此无法代 
表密度函数。当它和似然函数合并后，例如成为一个不正常先验，还是 

会导致一个正常后验分布 - 个积分为1的后验分布。还有，一个 

概率模型的参数化扁平先验对于一个可替换参数化方案来说并不扁 
平。假设我们取发生比 o >=7 T/(l —? r ) 作为参数，其等价的对数形式为 
A = log,[ff /( 1 — 7 T )] 。 ff 的扁平先验对 £ i > 和义都是不扁平的。 

[57] —个替代方法是把后验分布的均值作为; r 的点估计。然而在大多数情 
况下，随着样本量的不断增加，后验分布会越来越趋近正态分布，那么, 
如果样本量足够大，其众数和均值是几乎相等的。 

[58] 该规则有个例外，即对于某些参数值，先验分布为零密度分布，那么，对 
于这些参数值，其后验分布也会是零密度分布。 

[59] —般而言，独立意味着不相关，但是不相关的随机变量不一定是独立 
的。但是，在多元正态分布中，独立和不相关是等价的。 

[60] 关于这段所提到的结果的证明，可参见相关著作 ( Rao , 1973)。 

[61] 为了使假设可行，两个解释变量 A 、: r 2 必须用相同的单位来衡量^ 

[62] Delta 方法在这个问题上的应用是由韦斯伯格 （ Weisberg ，2005) 提 
议的。 

[63] 前面的结果对于新假设下的 X 是适用的，但并不代表这些假设是完全 
没有问题的。许多解释变量都是有测量误差的，且在某些条件下，它们 
会使估计系数有严重的偏差。同样，在特定的(一般的）回归等式理解 
中，关于解释变量误差独立的假设等价于模型中包含的 Y 的决定因素 
和忽略因素是不相关的。最后，线性假设、常误差方差和正态都是有潜 
在问题的。能令人满意地处理好这些问题，与回归分析作为数学抽象 
和数据分析的实用工具是不一样的。 
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